数学」カテゴリーアーカイブ

サンプル分位数の漸近正規性

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

はじめに

ここでは, サンプル分位数の漸近正規性を示します.
必要な定義なども触れながら示していきますので, 一応このページだけ見ればわかるようにしています.

本ページで示すサンプル分位数の漸近正規性をRでシミュレーションした結果はこちらのページです。

分位数

$F$を分布関数とします. 分布関数の定義より右連続です.
$0 < p < 1$となる$p$に対して, $F$の$p$分位数($p$-th quantile or fractile of $F$)は,

\begin{align} Q_p = \inf \left\{x ; F(x) \ge p \right\} \end{align}
で定義されます.これは,
\begin{align} F(Q_p -) \le p \le F(Q_p) \end{align}
を満たします.なお, 分位数は分位点または分位値ともいいます. 通常の意味での逆関数とは異なりますが, 次のような$F^{-1}$を定義することができます.
\begin{align} F^{-1}(p) = \inf \{Q_p;F(Q_n) \ge p \} \end{align}
これは$p$分位数の定義と同じことを言っています. 補題.$F$を分布関数とする. 上記で定義される$F^{-1}(p)$は, 非減少かつ 左連続で次を満たす.
\begin{align} &\text{(i)} F^{-1}(F(x)) \le x ,\qquad -\infty < x < \infty\lnl &\text{(ii)} F(F^{-1}(p)) \ge p , \qquad 0 < p < 1\label{l-2}\lnl &\text{(iii)} F(x) \ge p \Longleftrightarrow x \ge F^{-1}(p) \end{align}

標本分布関数

分布$F$に従う大きさ$n$の標本$\{X_1 , X_2,\cdots ,X_n \}$を考えます.この標本に対しての標本分布関数(sample distribution function)とは,

\begin{align}
&F_n(x) = \frac{1}{n}\sum_{i=1}^n I(X_i \le x) ,\qquad -\infty < x < \infty\label{l-3}\lnl &I(X_i \le x) = \begin{cases} 1 & X_i \le x\\ 0 & \text{その他}\end{cases}\label{l-4} \end{align}
で定義される関数です. つまり大きさ$n$の標本に対して$x$以下である標本の数を$n$で割った数のことです. $\eqref{l-3}$を変形して,
\begin{align} nF_n(x) = \sum_{i=1}^n I(X_i \le x)\tag{\ref{l-3}'} \end{align}
と書けます. 右辺の各$I(X_i \le x)$はの定義$\eqref{l-4}$から$1$となる確率が$P(X_i \le x) = F(x)$であるベルヌーイ分布であるとみなせます. 従って,
\begin{align} nF_n(x) \sim \mathrm{Bin}(n,F(x)) \label{l-5} \end{align}
となることがわかります. $\mathrm{Bin}(n,p)$はパラメータ$n , p$の二項分布を表します.

標本分位数(サンプル分位数)

$0 < p < 1$となる$p$に対して, この標本に対する$p$標本分位数またはサンプル分位数($p$-th quantile of the sample distribution function $F$)は, 標本分布関数$F_n$に対する$p$分位数のことです.つまり,

\begin{align} \hat{Q}_{pn} = \inf \{x; {F_n}(x) \ge p\}\label{l-1} \end{align}
で定義されます. 混乱のないときには簡単に$\hat{Q}_{p}$と表記します. なお, $\hat{Q}_{\frac{1}{2}}$を標本メジアン(sample median)と呼ぶことがあります.ただし, 標本メジアンの正確な定義は,
\begin{align} Q'_{\frac{1}{2}} = \begin{cases}X_{\left(\frac{n+1}{2}\right)}& n\text{が奇数}\\ \cfrac{X_{\left(\frac{n}{2}\right)} + X_{\left(\frac{n}{2}+1\right)}}{2}& n\text{が偶数}\end{cases} \end{align}
です. ここで, $X_{(i)}$は標本を小さい順に並べ替えた時の$i$番目の標本を表します.つまり$\hat{Q}_{\frac{1}{2}}$は標本数が奇数のときは$Q'_{\frac{1}{2}}$と一致しますが, 偶数のときには一致しないことがあります.

標本分位数の漸近正規性

$F'(x+)$を$F$の右微分係数 , $F'(x-)$を$F$の左微分係数とします.

定理A. $0 < p < 1$とし, 確率分布関数$F$が$Q_p$で連続とするとき, 次が成り立つ.

  1. $F'(Q_p-)$が存在し, その値が正であるとき, 実数$t < 0$に対して,
    \begin{align} \lim_{n\to \infty} P\left(\frac{\sqrt{n}\left(\hat{Q}_{pn}-Q_p\right)}{\sqrt{p(1-p)}/F'(Q_p-)} \le t\right) = \Phi(t) \end{align}
  2. $F'(Q_p+)$が存在し, その値が正であるとき, 実数$t > 0$に対して,
    \begin{align}
    \lim_{n\to \infty} P\left(\frac{\sqrt{n}\left(\hat{Q}_{pn}-Q_p\right)}{\sqrt{p(1-p)}/F'(Q_p+)} \le t\right) = \Phi(t)
    \end{align}
  3. どんなときでも,
    \begin{align}
    \lim_{n\to \infty} P\left(\sqrt{n}\left(\hat{Q}_{pn}-Q_p\right) \le 0\right)= \Phi(0) = \frac{1}{2}
    \end{align}

定理の証明の前に, 2つの系を紹介します.

系A. $0 < p < 1$とし, 確率分布関数$F$が$Q_p$で微分可能であり, その微分係数が正であるとき,

\begin{align} \hat{Q}_{pn} \xrightarrow{d} \mathrm{N}\left(Q_p,\frac{p(1-p)}{F'(Q_p)^2n}\right) \end{align}
となる. 系B. $0 < p < 1$とし, 確率分布関数$F$が密度関数$f$を$Q_p$の近傍で持ち, $f$が$Q_p$で正であり連続ならば,
\begin{align} \hat{Q}_{pn} \xrightarrow{d} \mathrm{N}\left(Q_p,\frac{p(1-p)}{f(Q_p)^2n}\right) \end{align}
となる. $F$が$Q_p$で微分可能ならば, $F'(Q_p+) = F'(Q_p-) = F'(Q_p)$なので系Aが示されます. $f$が$F$の密度関数であるとき, 通常は$f = F'$とは限りませんが, $f$が$Q_p$で連続であるならば$f(Q_p) = F'(Q_p)$なので, 系Bが示されます.

定理Aの証明

$t$を固定し, $A > 0$を後で定義する標準化定数とする.また,

\begin{align}
G_n(t) = P\left(\frac{\sqrt{n}\left(\hat{Q}_{pn}-Q_p\right)}{A} \le t\right)\label{l-10}
\end{align}

と$G_n(t)$を定義します.
\begin{align}
G_n(t) &= P\left(\hat{Q}_{pn} \le Q_p + tAn^{-1/2}\right)\\
&= P\left(F_n(\hat{Q}_{pn}) \le F_n\left(Q_p + tAn^{-1/2}\right)\right)
\end{align}

$\hat{Q}_{pn}={F_n}^{-1}(p)$なので$\eqref{l-2}$より,
\begin{align}
G_n(t) &= P\left(p \le F_n\left(Q_p + tAn^{-1/2}\right)\right)\\
&=P\left(np \le nF_n\left(Q_p + tAn^{-1/2}\right)\right)
\end{align}

$\eqref{l-5}$から$nF_n(x)\sim \mathrm{Bin}(n,F(x))$なので,
\begin{align}
G_n(t) &= P\left[np \le B_n\left(F\left(Q_p + tAn^{-1/2}\right)\right)\right]
\end{align}

となる.ただし$B_n(y)$は二項分布$\mathrm{Bin}(n,y)$に従う確率変数を表します.$B_n(y)$を標準化します. つまり平均$ny$を引き, 標準偏差$\sqrt{ny(1-y)}$で割ります. これを$B_n^*(y)$とすると,
\begin{align}
B_n^*(y) = \frac{B_n(y)-ny}{\sqrt{ny(1-y)}}
\end{align}

となるので,
\begin{align}
G_n(t) = P(B_n^*(y_{nt}) \ge -c_{nt})\label{l-6}
\end{align}

とかけます.ただし,
\begin{align}
y_{nt} &= F\left(Q_p + tAn^{-1/2}\right) \label{l-8}\\
c_{nt} &= \frac{\sqrt{n}(y_{nt}-p)}{\sqrt{y_{nt}(1-y_{nt})}}\label{l-9}
\end{align}

です.

定理Aの(3)はこれから直ちに導けます.つまり$\eqref{l-6}$で$t=0$とおくと, $G_n(0)=P(B_n^*(p) \ge 0)$となりますが, これは$n\to\infty$で$\Phi(0)=1/2$に収束します.

定理Aの(1)と(2)に関しては, Berry-Esseenの定理を用います.これは,

\begin{align}
\sup_{x} \left| P(B_n^*(z) < x) - \Phi(x)\right| \le C\frac{\rho_z}{{\sigma_z}^3\sqrt{n}} = C\frac{\gamma(z)}{\sqrt{n}} \label{l-7} \end{align}
が成り立つというものです. ここで$C$は$z$に依存しない定数, ${\sigma_z}^2 = V(B_1(z)) = z(1-z)$ , $\rho_z= E[(B_1(z)-z)^3] = z(1-z)[(1-z)^2+z^2]$ですので,
\begin{align} \gamma(z) = \frac{(1-z)^2+z^2}{\sqrt{z(1-z)}} \end{align}
$\Phi(t)-G_n(t)$は$\eqref{l-6}$から,
\begin{align} \Phi(t)-G_n(t) &= \Phi(t) - P(B_n^*(y_{nt}) \ge -c_{nt})\\ &=\Phi(t) - \Big\{1- P(B_n^*(y_{nt}) < -c_{nt}) \Big\} \\ &=P(B_n^*(y_{nt}) < -c_{nt}) - [1-\Phi(t)]\\ &=P(B_n^*(y_{nt}) < -c_{nt}) - \Phi(-c_{nt}) + \Phi(t) - \Phi(c_{nt}) \end{align}
$\eqref{l-7}$より,
\begin{align} \Big| G_n(t) - \Phi(t) \Big| \le C\frac{\gamma(y_{nt})}{\sqrt{n}} + \Big|\Phi(t) -\Phi(c_{nt})\Big| \end{align}
が成り立ちます. $n \to \infty$とした際の右辺第1項目の挙動を調べます.
\begin{align} &y_{nt} = F\left(Q_p + tAn^{-1/2}\right) \to F(Q_p) = p \qquad(\because F\text{は}Q_p\text{で連続})\\ \Longrightarrow & \gamma(y_{nt}) = \frac{(1-y_{nt})^2 + {y_{nt}}^2}{\sqrt{y_{nt}(1-y_{nt})}} \to \frac{(1-p)^2 + {p^2}}{\sqrt{p(1-p)}} \lnl \Longrightarrow &C\frac{\gamma(y_{nt})}{\sqrt{n}} \to 0 \end{align}
次に,$n\to \infty$のとき右辺第2項目が$0$になる場合, つまり$c_{nt}\to t$となる$A$の条件を調べます. $\eqref{l-9}$から,
\begin{align} c_{nt} = \frac{tA}{\sqrt{y_{nt}(1-y_{nt})}}\cdot \frac{F\left(Q_p+tAn^{-1/2}\right) - F(Q_p)}{tAn^{-1/2}} \end{align}
のように変形できます. ここで, $t > 0$のとき$n\to \infty$とすると,
\begin{align}
c_{nt} \to \frac{tA}{\sqrt{p(1-p)}}F'(Q_p+)
\end{align}

であり, $t < 0$のときは,
\begin{align} c_{nt} \to \frac{tA}{\sqrt{p(1-p)}}F'(Q_p-) \end{align}
となることがわかります. ただしそれぞれ右または左微分係数$F'(Q_p+) , F'(Q_p-)$が存在することを仮定しています. この仮定の下, $c_{nt}\to t$となるためには,
\begin{align} t > 0 \text{のとき} A =\cfrac{\sqrt{p(1-p)}}{F'(Q_p+)}\lnl
t < 0 \text{のとき} A =\cfrac{\sqrt{p(1-p)}}{F'(Q_p-)} \end{align}
とすればよいことがわかります. これを$\eqref{l-10}$に代入し$n\to \infty$とすれば定理Aの(1)(2)が示されます.

定理Aの利用例:標本メジアンの極限分布

もし分布関数$F$が$Q_{1/2}$で微分可能なら, 標本メジアン$\hat{Q}_{1/2}$の極限分布は,

\begin{align}
\hat{Q}_{1/2} \xrightarrow{d} \mathrm{N}\left(Q_{1/2},\frac{1}{4nF'(Q_{1/2})^2}\right)
\end{align}

となります.さらに, $F$が密度関数$f$をもち, $f$が$Q_{1/2}$で連続なら,
\begin{align}
\hat{Q}_{1/2} \xrightarrow{d} \mathrm{N}\left(Q_{1/2},\frac{1}{4nf^2(Q_{1/2})}\right)
\end{align}

とも書けます.

統計検定1級に合格しました(午前午後同時合格者数は?)

統計検定1級合格

前回、統計検定を11/25に受けてきたと報告いたしましたが、本日合格発表があり午前も午後も無事合格していました。

合格までの勉強歴などは別途書こうと思います。

さて、前回(2017年11月)の合格率を見て、約24%*26%でおよそ6%ちょっとしか同時に受からないんだなぁと思っていましたが、合格発表で合格番号がならんでいるのを見て、あれ、同時合格って結構たくさんいる?と疑問に思いました。

確かに、午前と午後同じ会場だったし、受験番号の上4桁は会場コードぽいので、下3桁が会場内の連番だとすると、以下を仮定したら同時合格推理できるかも?と思い検証してみました。

  • 午前と午後を同時に受けた人で受験番号の順序は入れ替わらない
    (たとえばAさんが午前受験番号3,Bさんが5だとすると、午後にAさん10,Bさん8みたいな順序の入れ替わりは発生しない)
  • ほとんどの受験生が午前も午後も受ける

図を作ってみた

これが、とある会場(上4桁が同じ)の合否です。
左が数理統計、右が統計応用です。
〇のセルを黄色く塗っています。
赤〇はS合格者、緑〇はA合格者です。

枠で囲った部分が、〇と×の並びが似通っていて、同じ受験生では?と思わせるところです。
(青枠の中は完全一致しませんが、途中の□で囲った×の方が午後受けてないと仮定すれば一致)

ぶつ切りにしたのが間違いかも(改行があるところがわかりにくい)と思って、横に並べてみました。

画像を3つに分けています。それぞれ受験番号の1~100,101~200,201~300です。上の黒い点が受験番号50の刻みを表しています。
上の段が数理統計、下の段が統計応用です。

黄色が合格者で、そのうちオレンジが同じ人なんじゃないかなというところです。
下の丸数字は数理統計の受験番号ー応用数理の受験番号(Dとします)です。
一応、ルールをつけて色付けしており、

  • 自分の受験番号はオレンジに塗る
  • 模様が特徴的で、Dの値が近傍と変わらないか、±1に収まるところは同じ人とみなしオレンジ
  • 最後の2マス(⓽の近くの2名)は自信ないですがオレンジにしました

適当にやりましたが、なんとなく、納得性はあるのではないでしょうか。(統計検定合格者の発言か?)

これで表を作ると(受験者数を280として)

計算するまでもないですが、強い相関関係がみられますね。

以下はご参考です。

x <- matrix(c(221,15,20,24),ncol=2,byrow=T)
colnames(x) <- c("応用不合格","応用合格")
rownames(x) <- c("数理不合格","数理合格")
x
応用不合格 応用合格
数理不合格 221 15
数理合格 20 24
chisq.test(x)
Pearson's Chi-squared test with Yates' continuity correction
data: x
X-squared = 67.873, df = 1, p-value < 2.2e-16

 

 

 

 

 

 

有名不等式(シュワルツの不等式)

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

イントロ

統計検定(1級)でもたまに知識が必要な有名不等式をまとめます。
今回は、シュワルツの不等式について紹介します。
続きを読む

2018統計検定1級受験記

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

統計検定1級を受けてきました

受験会場は東京大学本郷キャンパス法文1号館。
丸ノ内線本郷三丁目駅から歩いて約10分ほどかかりました。

1級は受験者少ないかなと思ったら意外と多く、私がいた教室は100人以上は余裕でいました。
人数が多いせいか試験監督は解答用紙・マークシート・問題用紙の配布から、電卓の確認、受験票の回収など大忙しでしたね。
お疲れ様です。

スポンサーリンク


続きを読む

数理統計:連続一様分布の性質

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

イントロ

代表的な分布の性質を解説します。
今回は連続一様分布です。

続きを読む

数理統計:指数分布の性質

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

イントロ

代表的な分布の性質を解説します。
今回は指数分布です。

続きを読む

数理統計:ガンマ分布の性質

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

イントロ

代表的な分布の性質を解説します。
今回はガンマ分布です。

続きを読む

数理統計:正規分布の性質

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

イントロ

代表的な分布の性質を解説します。
今回は正規分布です。

続きを読む

数理統計:負の二項分布の性質

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

イントロ

代表的な分布の性質を解説します。
今回は負の二項分布です。

続きを読む

数理統計:幾何分布の性質

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

イントロ

代表的な分布の性質を解説します。
今回は幾何分布です。

続きを読む