分散は、偏差を二乗したものを算術平均したものなので、本来の単位を二乗したものとなています。
ばらつき具合を測るにはそのままでも不都合はないのですが、ほんらいのばらつき加減にくらべて値が大きすぎので、平方根を計算して本来のばらつきに戻すほうが好都合です。
この、分散の平方根のことを標準偏差と呼んでいます。
標準偏差 = √分散
標準偏差の意味
ばらつきの平均。各値は平均値を中心として左右にばらつきがありますが、そのバラツキ具合の平均ということです。
バラツキ具合のことを散布度と呼びます。
標準偏差を使うと何が分かるか?
1.あるデータの特殊性
2.異なる2つのデータセットの性質の違い
あるデータの特殊性
そのデータがそのデータセットの中でどのような位置づけかということです。
分かりやすい例でいえば、たとえばあるテストで80点を取りました。80点といえば、一般的には優秀な点と言えますが果たしてそうでしょうか?
もし、平均点が85点なら、80点は平均以下ということになってしまいます。
また、平均点が60点だとしても、標準偏差が20点の場合と、10点の場合では、同じ80点でも意味合いが異なってきます。
80点というのは平均点を20点上回っています。
標準偏差が20点の場合、平均を上回る人の偏差の平均が20点ということですから、確かに平均を上回っているので優秀であることには違いないけれども、月並みな優秀さということになります。(月並みな優秀さという表現も変な表現ですが)
ところが標準偏差が10点の場合、平均点より20点も上回るというのは、稀有なことだということを意味します。
実は、試験の得点、身長、体重などの統計データは、正規分布と呼ばれる平均を中心とした左右対称の分布になることが知られています。
正規分布の場合、平均±標準偏差の間に全体のうちの約70%、平均±2x標準偏差の間に全体のうちの約95%が入ることがわかっています。
平均より標準偏差2つ分上回っているというのは、全体の2.5%しかない稀有なことなのです。
ちなみに、偏差値という指標がありますが、あれは平均を50点、標準偏差を10点としたら、自分は何点に該当するかという指針です。ですから、偏差値70点と言えば標準偏差の2倍平均より上回っているので、上位2.5%の優秀さということになって大変威張れる得点だということです。70点というと大した得点でないように思うかもしれませんが、昔はそういえば70点を取ったことがあるという心当たりがあると人も多いのではないでしょうか?
異なる2つのデータセットの性質の違い
異なる2つのデータセットの標準偏差を比べることで、2つのデータセットの特徴を比べることができます。
平均 | 標準偏差 | 70%区間 | |
---|---|---|---|
A | 60 | 10 | 50 ~ 70 |
B | 50 | 30 | 20 ~ 80 |
60点取れば合格というテストにどちらが受かりやすいかというともちろんAのほうです。しかし、80点取れば合格というテストでは話が異なってきます。Aが80点をとるのは非常に難しいことなのに対して、BのほうはAに比べるとまだ可能性があります。
分散は次のように計算できることが分かっています。
σ2 = x2の平均 – (xの平均)2