2.2.データの整理

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

データを整理する

データを理解するためには視覚的にわかりやすく整理することが大切です.

ここではデータ整理によく使われる「度数分布表」と「ヒストグラム」を紹介します.

度数分布表

度数分布表とは次のような形をした表である.


\begin{array}{c*5{|c}}
\text{階級}&\text{階級値} & \text{度数} & \text{相対度数} & \text{累積度数} & \text{累積相対度数} \\ \hline
a_0\sim a_1 & x_1 & f_1 & f_1/N & F_1 & F_1/N\\
a_1\sim a_2 & x_2 & f_2 & f_2/N & F_2 & F_2/N\\
\vdots & \vdots & \vdots & \vdots& \vdots& \vdots \\
a_{n-1}\sim a_n & x_n & f_n & f_n/N & F_n & F_n/N\\ \hline
\text{計} & \text{—} & N & 1 & \text{—} & \text{—}\\
\end{array}

ここで各項目の意味は次の通りです.

 項目  意味
 階級 その行にどの範囲の値について記載されているかを示す.
通常階級の幅は階級間で一定にするが,最初の階級と最後の階級は「~以下」「~以上」という表現で広くとっても差し支えない.
階級の端の値は実測値と一致しないほうが望ましいが,一致する場合はどちらの階級にいれるか決めておき明示すること.
 階級値 階級を代表する値.通常は階級の範囲の中央値とする.
 度数 その階級に入るデータの数である.
 相対度数 度数をデータ総数$N$で割ったもの.
 累積度数 最初の階級から現在の階級までの度数の合計である.
 累積相対度数 累積度数をデータ総数$N$で割ったもの.

各項目で必要がないものは省略することができます.

実際のデータを度数分布表に書いてみましょう.とある40人クラスのテストの点数を度数分布表にしたとした場合,こんな感じになります.相対度数・累積相対度数を百分率表示してみました.


\begin{array}{c*5{|c}}
\text{階級}&\text{階級値} & \text{度数} & \text{相対度数} & \text{累積度数} & \text{累積相対度数} \\ \hline
0\text{点以上}10\text{点未満}& 5 & 2 & 0.67\% & 2 & 0.67\%\\
10\text{点以上}20\text{点未満}& 15 & 1 & 0.33\% & 3 & 1\%\\
20\text{点以上}30\text{点未満}& 25 & 4 & 1.33\% & 7 & 2.33\%\\
30\text{点以上}40\text{点未満}& 35 & 20 & 6.67\% & 27 & 9\%\\
40\text{点以上}50\text{点未満}& 45 & 37 & 12.33\% & 64 & 21.33\%\\
50\text{点以上}60\text{点未満}& 55 & 76 & 25.33\% & 140 & 46.67\%\\
60\text{点以上}70\text{点未満}& 65 & 72 & 24\% & 212 & 70.67\%\\
70\text{点以上}80\text{点未満}& 75 & 58 & 19.33\% & 270 & 90\%\\
80\text{点以上}90\text{点未満}& 85 & 25 & 8.33\% & 295 & 98.33\%\\
90\text{点以上}100\text{点以下}& 95 & 5 & 1.67\% & 300 & 100\%\\ \hline
\text{計} & \text{—} & 300 & 1 & \text{—} & \text{—}\\
\end{array}

階級の数$n$は多すぎても少なすぎてもいけません.
人間がみて意味のある分け方も大切ですが,次のスタジェスの式も目安になります.

\begin{align}
n \fallingdotseq 1 + \frac{\log_{10}N}{\log_{10}2}
\end{align}

スタジェスの式によると,$N=300$のとき$n\fallingdotseq 9.23$となり,10階級に分けるのは妥当だということになります.

ヒストグラム

ヒストグラムとは,度数分布表の階級ごとの度数を棒グラフで表したものです.

横軸に階級を小さい順に配置し,縦軸に度数をとります.