標本分散はs2で表わします。(母分散はσ2で表します。)
- それぞれのデータから平均値を引いたもの(=偏差)を2乗して合計します。
- (標本の個数 – 1)で割ります。
つまり、下記のようになります。
標本分散(s2) = {(x1 – )2 + (x2 – )2 + ・・・ + (xn – )2}/(n – 1)
なぜ、nではなく(n-1)で割るのか?
標本分散の分布
標本分散がどのような分布をするのかを知るには、、標本二乗和の分布がどのような分布になるのかをまず知る必要があります。
標準正規母集団の標本二乗和の分布
標本二乗和 = x12 + x22 + ・・・ + xn2
正規母集団の標本平均の分布は、平均=母平均、標準偏差=母標準偏差/√標本数 となりました。
それでは、正規母集団の標本二乗和はどのような分布をするのでしょうか?
二乗和ですから、決してマイナスの数値にならないことだけは明らかです。ですから、正規分布ではないことだけは確実に言えそうです。(正規分布は-無限大~+無限大のすべての区間を有します)
標準正規母集団(※注)からn個の標本を抽出したとき、その二乗和の分布は、「カイ二乗分布」と呼ばれる分布となることが数理的に証明されています。
一般正規母集団の場合も、統計量を変形すれば標準正規母集団となるので、変形した統計量の二乗和の分布はやはりカイ二乗分布となります。
当然、標本数が異なればその二乗和の分布は異なるものになります。カイ二乗分布では二乗和の項目数のことを自由度と呼びます。標本数=自由度となります。
自由度が大きくなるにつれ分布のピークが正のほうにずれ、分布が平たくピークの山が低くなります。
一般正規母集団の標本二乗和の分布
一般正規分布の統計量は、次の加工をすることで標準正規分布になります。
x’ = (x – μ) / σ
つまり、平均を引いて、標準偏差で割れば、平均=0、標準偏差1の正規分布になります。
ということは、この加工した統計量(V)の二乗和はカイ二乗分布するということになります。
V = {(x1 – μ) / σ }2 + {(x2 – μ) / σ }2 + ・・・ + {(xn – μ) / σ }2
Vがカイ2乗分布をすることが分かっているのですから、母平均μまたは母分散σを知って入れば、もう一方の母数が推定できるということになります。
カイ二乗分布
自由度 | 0.975 | 0.025 |
---|---|---|
1 | 0.001 | 5.023 |
2 | 0.0506 | 7.377 |
3 | 0.2157 | 9.3484 |
4 | 0.4844 | 11.1433 |
5 | 0.8312 | 12.8325 |
6 | 1.2373 | 14.4494 |
7 | 1.6898 | 16.0128 |
母平均μを知っている場合の母分散の推定
V = {(x1 – μ) / σ }2 + {(x2 – μ) / σ }2 + ・・・ + {(xn – μ) / σ }2において母平均μを知っている場合、未知の値はσだけとなります。
統計量Vはカイ二乗分布することが分かっているので、この95%予想区間をもとに、母標準偏差σを推定することが可能となります。
標本分散の分布
一般正規母集団の統計量を
x’ = (x – μ) / σ
のように加工すると、標準正規母集団となることをすでにお話しました。
では、この式で、母平均の代わりに標本平均を用いた統計量(W)は、どのような分布となるのでしょうか?
W = {(x1 – ) / σ }2 + {(x2 – ) / σ }2 + ・・・ + {(xn – ) / σ }2
実は、この統計量Wもカイ二乗分布になることが証明されています。
ただし、自由度は標本数nではなく、(n-1)となります。
なぜ、自由度が1つ下がるのかを証明するのは簡単にはできないので、ここではそのイメージだけをお伝えします。
が標本から算出された数値だということに注目してください。つまり、は標本値とはまったく独立した値ではなく、標本値に引っ張られた値だということです。このように、標本値に引っ張られているため、Wを展開すると、うまい具合に、(標本数-1)個の二乗和の式として整理できることが数学的に証明されているのです。
ところで、標本分散(s2)は
s2 = {(x1 – )2 + (x2 – )2 + ・・・ + (xn – )2 } / n
なので、統計量Wと標本分散s2の形は非常に似ています。
W = (標本分散s2) × n / 母分散σ2
あるいは、標本分散s2 = W × 母分散σ2 / n
母平均が未知の場合の母分散の推定
母平均μが未知の場合、母平均μの代わりに標本平均を用いて、
W = {(x1 – ) / σ }2 + {(x2 – ) / σ }2 + ・・・ + {(xn – ) / σ }2
という統計量を作成すると、Wもカイ二乗分布することを知りました。(ただし、自由度は1つ下がる)
つまり、Wの95%予想区間を使って母標準偏差σを推定することができるようになります。
母分散が未知の場合の母平均の推定
標本平均の分布は、平均=母平均、標準偏差=母標準偏差/√nになることを前に説明しました。
このとき、母集団が正規分布であれば、標本平均の分布も正規分布になるので、母標準偏差σが分かってさえいれば、この95%予想区間をもとに、標本平均の95%区間推定をすることができたのでした。
しかし、多くの場合、母標準偏差はわからないという状況です。
そこで、母標準偏差の代わりに標本標準偏差を使用したらどうかという発想が出てきます。
標本数が多い場合、この発想はうまくいくのですが、標本数が少ない場合は少なからず誤差がでました。
そこで、詳しく研究した結果、統計量(T)
T = {( – μ) × √(n – 1)} / s
がt分布で定義される分布をすることが分かりました。
t分布は正規分布よりピークの山が低く、その分、裾野が広く広がった形をしています。
また、自由度が上がると、ピークの山が高くなっていきます。
もういちど、統計量Tを眺めてください。
ここで、未知のものは母平均μだけです。
ここまで、色々な推定を見てきた人にはすぐに分かると思いますが、これは母分散を知らなくても母平均μが推定できることを意味します。
というわけで、めでたく最終ゴールを迎えました。
→ おさらい