相関係数と正規性

最近、相関係数における2変数の正規性の必要性について考えることがあり、そのときに調べたことをまとめた。確証の持てる結論は得られず、ややお気持ち的なまとめになっている。

推測統計の文脈で相関係数を使う場合

相関係数の検定や区間推定をする場合、事前に正規性の検定をすべきだろう。というより、データに何らかの分布を仮定しないとパラメトリックな検定や区間推定はできないので、定義上当たり前ではある。逆にいうと、検定や区間推定をするための都合で相関係数に正規性が要請されるようにもとれる。

なお、正規性が成り立たない場合に検定をしたいなら順位相関係数で代用することがセオリーだそうだ。とはいえ、(ピアソンの)相関係数と順位相関係数では用途によっては別物になってしまわないか、という気もした。

記述統計の文脈で相関係数を使う場合

検定や区間推定の結果をもとに最終的な意思決定をするのではなく、EDAの一環で相関係数を算出することがある。私見だと相関係数はこのように使われる場面のほうが多いのではないかと思う。この場合、正規性の検定は必ずしもしなくてよいと考える。

定番の統計学の教科書でも相関係数はまず記述統計の章で解説される。そこでは正規性について触れられていない。
www.amazon.co.jp

そもそも正規性の問題がなくても、線形な関係からの乖離を表現するにすぎない相関係数を数値単体で見ることにあまり意味はないと考えている。散布図を描いたりしてある程度定性的に分析することが基本だし、先の本にもそのような指示がある。その際の分析軸のひとつとして正規性が有用なことはあるだろう。

定義から考える

相関係数は共分散を各変数の標準偏差で割ったもの、言い換えれば正規化された共分散である。定義上、変数が連続値であれば算出できるもので、正規性は一切要求されていない。

ベクトルの言葉を使えば、相関係数は2本のベクトルの内積を各ベクトルの長さで割ったもの、すなわち2本のベクトルがなす角のコサインである。だから相関係数が0、無相関のときは2変数が「直交」しているし、相関係数の絶対値が1、完全に相関しているときは「平行」であると幾何的には捉えられる。このような見方は正規分布しているか否かによって妨げられるものではないのではないか。

なお、二次元正規分布のパラメータのひとつの最尤推定量が相関係数になるという事実はあるらしい。
www.bananarian.net
www.jstage.jst.go.jp

回帰分析との比較

回帰分析にも似たような話がある。回帰分析では通常、次の4つの仮定が置かれる。

  • 誤差項の平均が0
  • 誤差項の分散が均一
  • 異なるデータの誤差項の共分散が0
  • 誤差項が正規分布に従う

このうち、誤差の正規性だけはなくてもガウス・マルコフの定理が成立する。すなわち、最小二乗推定量がBLUEとなる。

一方で回帰係数の検定や区間推定をするには正規性が求められる。相関係数と同じ話で、分布の仮定なしには検定も区間推定もやりようがないからだ。回帰分析をするからには係数の有意性が気になるので、結局正規性が要求されるという考え方もあるが、ビッグデータモデリングは検定の必要性が薄く、データサイズによりけりではないか?