度数分布表

度数分布表とは、データセットの特徴を表すために階級ごとに度数の分布を表にしたものです。

生のデータを階級値に縮約(しゅくやく)あるいは丸めることで、細部を犠牲にして特徴を浮き彫りにします。

以降の説明のために少しだけ用語を説明します。覚える必要はありません。読み進めるために、こういう意味で使っているんだ把握してもらえたら結構です。

用語 意味
級間隔(きゅうかんかく) 階級の幅のこと。通常はすべての級間隔を等しくとります。
級下限界(きゅうかげんかい) ある階級の一番下限の値です。
級上限界(きゅうじょうげんかい) ある階級の上限下限の値です。
級中値(きゅうちゅうち) 階級値とも呼びます。級下限界と級上限界の平均値です。
度数分布表の例
次のような10個のデータを使って度数分布表を作ってみます。

10 17 22 18 17 14 20 19 15 18

階級 階級値 度数 相対度数
10-12 11 1 0.1
13-15 14 2 0.2
16-18 17 4 0.4
19-21 20 2 0.2
22-24 23 1 0.1
相対度数は平均を計算するときにあったほうが便利ですが、なくても構いません。

階級の決め方
データセットの最小値と最大値を見つけます。 うまくデータが散らばるように最大値-最小値を10等分程度に分割する階級幅を見つけます。 階級幅は大きすぎても小さすぎてもダメです。

階級幅が大きすぎる例
2階級にすべてのデータが含まれてしまい、少々縮約しすぎの感があります。

階級 階級値 度数 相対度数
10-18 14 7 0.7
19-27 23 3 0.3
階級幅が小さすぎる例
階級 階級値 度数 相対度数
10-11 10.5 1 0.1
12-13 12.5 0 0.0
14-15 14.5 2 0.2
16-17 16.5 2 0.2
18-19 18.5 3 0.3
20-21 20.5 1 0.1
22-23 22.5 1 0.1
ヒストグラム(度数分布図)
度数分布表を、横軸を階級、縦軸を度数として、棒グラフで表現したものです。

10-12 13-15 16-18 19-21 22-24

まとめ
ここまでで、統計生データを縮約して、度数分布表を作成したり、度数分布図(ヒストグラム)を作成する方法を会得しました。

縮約することで、データ全体の見通しがずいぶんと良くなることを感じ取ってもらえたことと思います。

これらは以降に説明する平均や標準偏差といった統計量を理解する上で基礎中の基礎となることがらですので、確実に理解してください。

イメージで覚えよう
みかんがあるとします。

厳密にいえば、1個1個それぞれ大きさが異なります。

これらの違いには目をつぶり、ある程度大きさの等しいもの同士にグループ化します。

出来上がった、グループごとに数を数えると度数分布表の出来上がりです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です