2.4.散らばりの尺度

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

散らばりの尺度が必要な理由

代表値で紹介した各値はデータの特性をだた一つの値で表現するものでした.したがって,データがどのぐらい広がっているのかなどの情報はここには含まれていません.

データの広がり(散らばり)がわかると「データの9割がどの範囲に入るか」などを調べるのに役立ちます.

分散(variance)

一番多く利用される散らばりの尺度は分散(variance)です.

分散とは,各値と平均値との差分の二乗の平均です.多くの場合 , $\sigma^2$や$V$で分散を表します.

\begin{align}
\sigma^2 = \frac{1}{n}\sum_{i=1}^n (x_i – \mu)^2
\end{align}

で定義されます.ここで$n$はデータの個数, $x_i$は各データ値, $\mu$はデータの平均です.

度数分布表から分散を求める

度数分布表から分散を求めることができます.度数分布表から求まる分散は分散の近似値です.なぜならば,度数分布表にする際に同じ階級にあるデータは一まとまりにされるからです.

度数分布表とはこういうものでした.

\begin{array}{c*2{|c}}
\text{階級}&\text{階級値} & \text{度数} \\ \hline
a_0\sim a_1 & x_1 & f_1 \\
a_1\sim a_2 & x_2 & f_2 \\
\vdots & \vdots & \vdots \\
a_{n-1}\sim a_n & x_n & f_n \\ \hline
\text{計} & \text{—} & N \\
\end{array}

この表に対する分散$\sigma^2$は,

\begin{align}
\sigma^2 = \frac{1}{N}\sum_{i=1}^n {x_i}^2 f_i – \overline{x}^2\label{eq-variance2}
\end{align}

で求められます.

例1.生データから分散を求める例題

次の$10$個のデータの分散を求めてみましょう.

49 50 50 53 50 54 50 50 50 51

まず,平均$\overline{x}$を求めます.次のように値と頻度とそれらを掛けたものをまとめた表を書くとすぐ求まります.

\begin{array}{|c|*6{c|}}
\hline
\text{値} & 49 & 50 & 51 & 53 & 54 & \text{計} \\ \hline
\text{頻度}& 1 & 6 & 1 & 1 & 1 & 10\\ \hline
\text{値}\times \text{頻度}& 49 & 300 & 51 & 53 & 54 & 507\\ \hline
\end{array}

値×頻度の計$507$を$10$で割ると, $\overline{x} = 50.7$とわかります.

次に各値と$\overline{x}$の差を二乗して足し合わせます.これも同様の表に追記していきます.

\begin{array}{|c|*6{c|}}
\hline
\text{値} & 49 & 50 & 51 & 53 & 54 & \text{計} \\ \hline
\text{頻度}& 1 & 6 & 1 & 1 & 1 & 10\\ \hline
\text{値}\times \text{頻度}& 49 & 300 & 51 & 53 & 54 & 507\\ \hline \hline
\text{値}-\overline{x} & -1.7 & -0.7 & 0.3 & 2.3 & 3.3& \text{—} \\ \hline
(\text{値}-\overline{x})^2 & 2.89 & 0.49 & 0.09 & 5.29 & 10.89& \text{—} \\ \hline
(\text{値}-\overline{x})^2\times \text{頻度} & 2.89 &2.94 & 0.09 & 5.29 & 10.89& 22.1\\ \hline
\end{array}

$(\text{値}-\overline{x})^2\times\text{頻度}$の計の$22.1$をデータの個数$10$で割った$2.21$が分散です.

例2.度数分布表から分散を求める例題

次の度数分布表から分散を求めてみましょう.


\begin{array}{c*2{|c}}
\text{階級}&\text{階級値} & \text{度数} \\ \hline
0\text{点以上}10\text{点未満}& 5 & 2 \\
10\text{点以上}20\text{点未満}& 15 & 1 \\
20\text{点以上}30\text{点未満}& 25 & 4 \\
30\text{点以上}40\text{点未満}& 35 & 20 \\
40\text{点以上}50\text{点未満}& 45 & 37 \\
50\text{点以上}60\text{点未満}& 55 & 76 \\
60\text{点以上}70\text{点未満}& 65 & 72 \\
70\text{点以上}80\text{点未満}& 75 & 58 \\
80\text{点以上}90\text{点未満}& 85 & 25 \\
90\text{点以上}100\text{点以下}& 95 & 5 \\ \hline
\text{計} & \text{—} & 300 \\
\end{array}

これの平均は$\overline{x} = 61$です.(導出は代表値を参照ください)

表を拡張して「① 階級値の二乗${x_i}^2$」と「② ①×度数${x_i}^2 f_i$」の列を作ります.②は計も計算します.


\begin{array}{c*4{|c}}
\text{階級}&\text{階級値} & \text{度数} & \text{①階級値の二乗}{x_i}^2 & \text{② ①×度数}{x_i}^2 f_i\\ \hline
0\text{点以上}10\text{点未満}& 5 & 2 & 25 & 50 \\
10\text{点以上}20\text{点未満}& 15 & 1 & 225 & 225\\
20\text{点以上}30\text{点未満}& 25 & 4 & 625 & 2500\\
30\text{点以上}40\text{点未満}& 35 & 20 & 1225 & 24500\\
40\text{点以上}50\text{点未満}& 45 & 37 & 2025 & 74925\\
50\text{点以上}60\text{点未満}& 55 & 76 & 3025 & 229900\\
60\text{点以上}70\text{点未満}& 65 & 72 & 4225 & 304200\\
70\text{点以上}80\text{点未満}& 75 & 58 & 5625 & 326250 \\
80\text{点以上}90\text{点未満}& 85 & 25 & 7225 & 180625\\
90\text{点以上}100\text{点以下}& 95 & 5 & 9025 & 45125\\ \hline
\text{計} & \text{—} & 300 & \text{—} & 1188300\\
\end{array}

$\eqref{eq-variance2}$に各値を代入して分散$\sigma^2$は,

\begin{align}
\sigma^2 &= \frac{1}{N}\sum_{i=1}^n {x_i}^2 f_i – \overline{x}^2\lnl
&= \frac{1188300}{300} – 61^2\lnl
&= 240
\end{align}

となります.

標準偏差(standard deviation)

分散は平均との二乗差の平均をとっていることから,単位(次元)が元のデータとは同じでないので直接の比較はできません.そのため分散の正の平方根をとり単位をそろえたものを標準偏差(Standard Deviation)といい,$\sigma$などで表します.

\begin{align}
\sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i – \mu)^2}
\end{align}

変動係数(coefficient of variation)

変動係数とは, 標準偏差を平均で割ったものです.同一単位(次元)同士で割ることになるので単位のない値となります.通常$\mathrm{C.V.}$で表し,

\begin{align}
\mathrm{C.V} &= \frac{\sigma}{\mu} = \sqrt{\frac{1}{n}\sum_{i=1}^n \left(\frac{x_i}{\mu} – 1\right)^2}
\end{align}

となる値です.平均が異なる2つのデータセット間でばらつきを比較するのに利用したりします.

四分位点と四分位偏差

代表値における中央値のように, データの順序に基づいた散らばりの尺度もあります.
よく使われるのが四分位偏差です.四分位偏差を理解するために四分位点をまず紹介します.

四分位点(四分位数)

中央値ではデータの真ん中の順位の点つまりデータを上位50%と下位50%の2つに分ける点(二分位点)を選びました.同じようにデータを4つに分ける点を選びます.

データを4つに分ける場合, 0~25% , 25~50% , 50~75% , 75~100%と分けるのが自然ですね.
つまり点を3つとればよいことがわかります.これらに$Q_1 , Q_2 , Q_3$と名前をつけます.$Q_1$を第1四分位点, $Q_2$を第2四分位点(中央値) , $Q_3$を第3四分位点といいます.

  • $Q_1$:データの下から25%の点,つまり$\cfrac{N}{4}$番目の点
  • $Q_2$:データの下から50%の点,つまり$\cfrac{N}{2}$番目の点. 中央値と同じ.
  • $Q_3$:データの下から75%の点,つまり$\cfrac{3N}{4}$番目の点

なお,中央値と同様にデータの個数の関係で該当するデータの順位が整数とならない場合は,その前後の値の平均を用います.

四分位偏差

四分位点がわかれば, 四分位偏差は簡単です.以下の式で求まります.

\begin{align}
S_q = \frac{Q_3 – Q_1}{2}
\end{align}

これはデータの真ん中の範囲(25%~75%に入る50%分の範囲)の最大値と最小値の差の半分という意味です.データが真ん中に集結していれば$S_q$は小さくなりますし, 広範囲に広がっていれば$S_q$は大きくなります.

$p$分位数

四分位数を拡張した概念を紹介します.
$F$を分布関数とします. 分布関数の定義より右連続です.
$0 < p < 1$となる$p$に対して, $F$の$p$分位数($p$-th quantile or fractile of $F$)は,

\begin{align}
Q_p = \inf \left\{x ; F(x) \ge p \right\}
\end{align}

で定義されます.これは,
\begin{align}
F(Q_p -) \le p \le F(Q_p)
\end{align}

を満たします.なお, 分位数は分位点または分位値ともいいます.

通常の意味での逆関数とは異なりますが, 次のような$F^{-1}$を定義することができます.

\begin{align}
F^{-1}(p) = \inf \{Q_p;F(Q_n) \ge p \}
\end{align}

これは$p$分位数の定義と同じことを言っています.

$F^{-1}$の性質を示します.$F^{-1}(p)$は, 非減少かつ 左連続で次を満たします.

\begin{align}
&\text{(i)} F^{-1}(F(x)) \le x ,\qquad -\infty < x < \infty\lnl &\text{(ii)} F(F^{-1}(p)) \ge p , \qquad 0 < p < 1\label{l-2}\lnl &\text{(iii)} F(x) \ge p \Longleftrightarrow x \ge F^{-1}(p) \end{align}

最小値・最大値

データの最小値(Minimum)と最大値(Maximum)も散らばりを表す尺度として利用できます.

通常は単にデータの中で最小のものと最大のものを最小値・最大値とします.
しかし, あまりにも分布の中央から外れているものを外れ値(outlier)として除外し, 残ったものの最小の物と最大のものを最小値・最大値とすることもあります.

(外れ値のない分布の例)

(外れ値のある分布の例)

データの中心からどれぐらい外れていれば外れ値といえるかですが, 決まった尺度は無いようです.しかし, $Q_1 – 3S_q$より小さいものと$Q_3+3S_q$より大きいものを外れ値として扱うことが多いようです.