2つのデータセットが同時に観測されるとき、一方のデータがもう片方のデータと何らかの関係があるとき、それらは相関関係があるという。
どうやったら相関関係が分かるか?
相関関係を調べるには、データセット1の値をX軸、データセット2の値をY軸とした散布図を書きます。
データセット1とデータセット2に相関関係がある場合は、その点が直線状にならぶ傾向が読み取れます。
(図-散布図)
次に相関関係を定量的に表す方法を考えます。
xの平均、Yの平均を原点として、各データがどのように散らばっているかに注目します。
正の相関
右上がり傾向にある時。勾配が正。
負の相関
右下がり傾向にある時。勾配が負。
u = x – xの平均
v = y – yの平均
とすると、
正の相関が強い場合には、(u,v)の組み合わせが(正,正)または(負,負)となることが多く、負の相関が強い場合には、(u,v)の組み合わせが(正,負)または(負,正)となることが多いことが分かります。
r = u × v とすると、
r |
u |
v |
正 |
正 |
正 |
正 |
負 |
負 |
負 |
正 |
負 |
負 |
負 |
正 |
のようになります。
この性質を使って、u x v を合計したときに、それが正であれば正の相関があり、負であれば負の相関があると
り、r(= u × v) が正か負かで正の相関があるのか、負の相関があるのかを判定できることが分かります。
ただし、このままでは、普通号が生じます。
まずデータの数に依存するということです。ですのでデータ数で割ります。
次に単位に依存するということです。ですので、標準偏差でわります。
{(x1-x~) + (x2-x~) + ・・・ + (xn-x~)}/{n × (σx × σy)}
という値を持って相関関係の強さを判定できそうです。
これを相関係数と呼びます。
-1 <= 相関係数 <= 1
相関係数が-1または1の場合は、xの値に応じてyの値が一意に決まることを意味します。すなわち完全に直線状に点が並んでいる状態を意味します。
また、相関係数が0ということは、相関関係がなく、データがバラバラに点在していることを意味します。
計算式の展開
{(x1-x~)(y1-y~)+(x2-x~)(y2-y~)+・・・+(xn-x~)(yn-y~)}/n = {(x1y1)+(x2y2)+・・・+(xnyn)}/n – x~y~
u = x – kx
v = y – ky
ruv =rxy
回帰直線
点(x~,Y~)を通る
回帰直線と実測値Yの乖離ができるだけすくなるなるような直線をyのxへの回帰直線と呼び、その時の直線の傾きをyのxへの回帰係数と呼ぶ。
y – y~ = r x (σy/σx) x (x – x~)
回帰直線と実測値Xの乖離ができるだけすくなるなるような直線をxのyへの回帰直線と呼び、その時の直線の傾きをxのyへの回帰係数と呼ぶ。
x – x~ = r x (σx/σy) x (y – y~)
この2つの回帰直線は、点(x~,y~)で交わる。また相関係数が大きいほど、その交わる角度は小さくなり、相関係数が1または-1の場合には完全に一致する。
相関表
相関に関しても、度数分布表のように階級値にまるめることがあるが、これを相関表と呼ぶ。度数分布表は1次元の表であったが、相関表は2次元の表となる。
相関表において、X単独、Y単独での度数の分布を周辺分布とよぶ。
相関表から相関図を作成する際には、階中値を使用すると点が重なり合うため、階級幅の中で点が重ならないように度数分だけ点を打つ。
度数分布表で平均や分散の計算を楽にするために、値を加工したが、相関係数の計算においてもこのテクニックを使用することができる。
ところで、
u = mx + n
v = my + n
のように加工した(u,v)の組について相関係数を計算すると、(x,y)の相関係数と同じであることが数学的に導かれる。
このため、相関表から相関係数を計算する際には、
x = (xの階級幅) × u + x~
y = (yの階級幅) × v + y~
とデータを加工して、その相関係数を計算すると計算がうんと楽になる。
計算方法の詳細については、度数分布表からの平均の計算方法、度数分布表からの分散の計算方法のページを参照してください。