正規分布

正規分布

世の中の不確実性が反映された分布の多くが正規分布と呼ばれる分布をすることが数学的にも証明されている。

正規分布は平均を中心として、±標準偏差1つ分の間に約70%のデータが入り、±標準偏差2つ分の間に約95%のデータが入るような釣鐘状の分布である。

具体的には次の関数で表わせれる。

(ここに式を挿入)

正規分布のうち、特に平均が0で、標準偏差が1のものを特に標準正規分布と呼ぶ。

標準正規分布以外の正規分布のことを一般正規分布と呼び、次のようにデータを加工することによって、加工後のデータの分布は標準正規分布となる。

(x-n)/s

n = 平均

s = 標準偏差

逆に標準正規分布に次の加工をすると、その平均はnだけ大きくなり、sを掛け合わせたものになることはすでに述べたとおりである。

先ほど、平均を中心として±標準偏差の間の区間にデータの約70%が入り、±標準偏差2つ分の間に約95%のデータが入ると説明した。これを具体的な数値で表すと次のようになる。

約70% = 0.6826

約95% = 0.9544

これらの細かい数値を丸暗記する必要はまったくありません。ただ、次の関係は統計を行う上で基本の基本で再三表れますので、イメージとしてボリューム感をしっかりと脳裏に焼き付けておくことをお勧めします。

平均を中心として±標準偏差1つ分の区間にデータの約70%が入り、±標準偏差2つ分の区間に約95%のデータが入る

 

コイン投げと正規分布

コインを何枚か同時に投げて、あるいは1枚を複数回連続して投げて、表が出る枚数は二項分布と呼ばれる分布をすることがわかっています。

そして、投げる枚数、あるいは投げる回数を大きくしていくと、二項分布は正規分布に近づいていきます。そして、その時、平均と標準偏差は次のようになります。

平均 = N / 2
標準偏差 = (√N)/2

ここで、標準偏差の式に枚数の平方根となっていることに注目してください。

これは枚数が多くなるほど、枚数の増加に比べると分散はそれほど大きくならないことを意味します。

コインを16枚投げた場合に表が出る枚数の分布は、平均が8枚で、分散が2枚であるのに対して、コインを100枚投げた場合に表が出る枚数の分布は、平均が50枚で、分散が5枚ということになります。

70%の確率で的中する予言

あるデータセットの分布が正規分布であるとわかっている場合、それは平均を中心としてプラスマイナス標準偏差1つ分の区間に全データの約70%が含まれることはすでにお話しした通りです。

言い方を変えると、このデータセットの中からランダムに1つのデータを抜き出したときに、70%の確率でこの区間内の値だということが言えるわけです。

全体に対して比較的小さな区間で70%という精度の予言が的中するということで意外性が期待できる一方、70%という数値は3回に2回ですから、逆にいえば3回に1回は外す予言ということになります。この数値を大きいと見るか小さいと見るかは状況によりますが、何より当てることを重視したい場合もあります。その場合、予言の区間を大きくすれば的中する確率も大きくなっていくことは容易に想像できます。しかし、区間をやたらと大きくすれば、的中はしても意外性はほとんどなくなってしまいます。極端な例でいえば、100%充てようと思えば、取りうる範囲の最小から最大を予言しさえすればよいわけですから。

では、どこまでその区間を広げるのが効率が良いのか?ということですが、すでにピンと来たと思いますが、標準偏差2つ分の区間がその答えとなります。

95%の確率で的中する予言

また、あるデータセットの分布が正規分布であるとわかっている場合、それは平均を中心としてプラスマイナス標準偏差2つ分の区間に全データの95%が含まれることはすでにお話しした通りです。

言い方を変えると、このデータセットの中からランダムに1つのデータを抜き出したときに、95%の確率でこの区間内の値だということが言えるわけです。

コイン投げの例でいえば、10人の人がそれぞれ16枚のコインを投げたとき、表が出る枚数を予言するとします。平均が8枚で標準偏差が2枚だったので、8-2×2~8+2×2、つまり4枚~12枚を予言すれば、概ね9人の枚数を言い当てることができるわけです。概ねというのは、完全に正規分布ではないという意味の他に、この的中率自体も正規分布に似た分布となるということを意味しています。平均では95%あたるけども、ある程度前後するということです。

概ね9人うんぬんのくだりは、混乱を招くので言わなかったほうがよいかもと考えましたが、本当の本当に確率・統計を自分の道具として使いこなすためには是非とも理解してほしいという気持ちであえて書きました。確率というのは小さな事象が複数集まってさらに大きな事象を形成していきます。この関係を理解すると一見複雑な事象を分析する際に必ず役に立ちます。

ところで、標準偏差2つ分とすると、確率は厳密にいえば、95.44%となります。統計学ではなぜか95.44%という端数を嫌い、ちょうど95%の区間を予言することを好みます。わずか0.44%の差ですが、その0.44%のために予言区間を広げる必要があります。少しでも予言区間は小さいほうが驚きがあるのです。

とはいえ、ちょうど95%にしようとすると、今度は標準偏差何個分という、何個分というところが半端な数字になります。具体的には1.96・・・となるのですが、1.96を採用することが慣例となっています。

的中率を0.44%犠牲にすることで、予言区間を標準偏差0.04個分短縮することができるというわけです。

個人的には、この犠牲が合理的なものとはとても思えません。計算のしやすさ、わかりやすさを優先して、素直に標準偏差2個分を採用したほうが良いような気がするのですが・・・慣例というのはわからないものです。95.44%で良いと思うのですが・・・

”1.96”は覚える必要はないですが、こんな覚え方も。

95%は1.96(一苦労)

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です