月別アーカイブ: 2019年5月

サンプル分位数の漸近正規性を確かめる

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

サンプル分位数の漸近正規性

サンプル分位数の漸近正規性で示した通り次が成り立ちます.

$0 < p < 1$とし, 確率分布関数$F$が密度関数$f$を$Q_p$の近傍で持ち, $f$が$Q_p$で正であり連続ならば,
\begin{align}
\hat{Q}_{pn} \xrightarrow{d} \mathrm{N}\left(Q_p,\frac{p(1-p)}{f(Q_p)^2n}\right)
\end{align}

となる.

今回は, この定理が本当に成り立っているのかRを使ってシミュレーションしていきましょう.

シミュレーション

$F$が正規分布の場合

$F$を$\mathrm{N}(50,10^2)$に従う場合でシミュレーションしてみます.
$n= 100 , p = 0.3$とします.
この場合, $Q_p \fallingdotseq 44.756 , f(Q_p) \fallingdotseq 0.03477$なので,

\begin{align}
\hat{Q}_{0.3} \xrightarrow{d} \mathrm{N}\left(44.756,1.737\right)
\end{align}

となるはずです.シミュレーションにより$\hat{Q}_p$を独立に$10000$個生成し上記の正規分布に従うか確認してみます.

Rのコードは次のようになります.

loop <- 1:10000 # Qpを計算する回数
n <- 100 #各回で利用するサンプル数
p <- 0.3 #分位点の位置

mean <- 50 # Fの従う正規分布の平均
sd <- 10 # Fの従う正規分布の標準偏差

qp <- qnorm(mean = mean,sd = sd,p = p) # 真のQpの値
f_qp <- dnorm(mean=mean,sd=sd,x = qp) #真のf(Qp)の値

qps = c() # 各回のQpを格納
for(i in loop){
  # サンプルをn個作成
  x <- rnorm(n,mean=mean,sd=sd)
  z = sort(x)[ceiling(n*p)] #標本分位点
  qps <- rbind(qps,c(z))
}
plot(density(qps)) #得られたQpの分布から密度関数を推定しプロット
# 収束先の分布をプロット
curve(dnorm(x,mean=qp,sd=sqrt(p*(1-p)/n)/f_qp),add = T,col="red")

実行結果:

黒線がシミュレーションで生成した$\hat{Q}_p$で赤線が収束先の分布, つまり$\mathrm{N}\left(44.756,1.737\right)$です.
よく一致していることがわかります.

$F$がカイ二乗分布の場合

$F$を$\chi^2(8)$に従う場合でシミュレーションしてみます.
$n= 200 , p = 0.7$とします.
この場合, $Q_p \fallingdotseq 9.524 , f(Q_p) \fallingdotseq 0.0769$なので,

\begin{align}
\hat{Q}_{0.7} \xrightarrow{d} \mathrm{N}\left(9.524,0.1775\right)
\end{align}

となるはずです.シミュレーションにより$\hat{Q}_p$を独立に$10000$個生成し上記の正規分布に従うか確認してみます.

Rのコードは次のようになります.

loop <- 1:10000 # Qpを計算する回数
n <- 200 #各回で利用するサンプル数
p <- 0.7 #分位点の位置

df <- 8 # Fの従うカイ二乗分布の自由度

qp <- qchisq(df = df,p = p) # 真のQpの値
f_qp <- dchisq(df = df,x = qp) #真のf(Qp)の値


qps = c() # 各回のQpを格納
for(i in loop){
  # サンプルをn個作成
  x <- rchisq(n,df = df)
  
  z = sort(x)[ceiling(n*p)] #標本分位点
  qps <- rbind(qps,c(z))
}
plot(density(qps)) #得られたQpの分布から密度関数を推定しプロット
# 収束先の分布をプロット
curve(dnorm(x,mean=qp,sd=sqrt(p*(1-p)/n)/f_qp),add = T,col="red")

実行結果:

黒線がシミュレーションで生成した$\hat{Q}_p$で赤線が収束先の分布, つまり$\mathrm{N}\left(9.524,0.1775\right)$です.
よく一致していることがわかります.

サンプル分位数の漸近正規性

$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

はじめに

ここでは, サンプル分位数の漸近正規性を示します.
必要な定義なども触れながら示していきますので, 一応このページだけ見ればわかるようにしています.

本ページで示すサンプル分位数の漸近正規性をRでシミュレーションした結果はこちらのページです。

分位数

$F$を分布関数とします. 分布関数の定義より右連続です.
$0 < p < 1$となる$p$に対して, $F$の$p$分位数($p$-th quantile or fractile of $F$)は,

\begin{align} Q_p = \inf \left\{x ; F(x) \ge p \right\} \end{align}
で定義されます.これは,
\begin{align} F(Q_p -) \le p \le F(Q_p) \end{align}
を満たします.なお, 分位数は分位点または分位値ともいいます. 通常の意味での逆関数とは異なりますが, 次のような$F^{-1}$を定義することができます.
\begin{align} F^{-1}(p) = \inf \{Q_p;F(Q_n) \ge p \} \end{align}
これは$p$分位数の定義と同じことを言っています. 補題.$F$を分布関数とする. 上記で定義される$F^{-1}(p)$は, 非減少かつ 左連続で次を満たす.
\begin{align} &\text{(i)} F^{-1}(F(x)) \le x ,\qquad -\infty < x < \infty\lnl &\text{(ii)} F(F^{-1}(p)) \ge p , \qquad 0 < p < 1\label{l-2}\lnl &\text{(iii)} F(x) \ge p \Longleftrightarrow x \ge F^{-1}(p) \end{align}

標本分布関数

分布$F$に従う大きさ$n$の標本$\{X_1 , X_2,\cdots ,X_n \}$を考えます.この標本に対しての標本分布関数(sample distribution function)とは,

\begin{align}
&F_n(x) = \frac{1}{n}\sum_{i=1}^n I(X_i \le x) ,\qquad -\infty < x < \infty\label{l-3}\lnl &I(X_i \le x) = \begin{cases} 1 & X_i \le x\\ 0 & \text{その他}\end{cases}\label{l-4} \end{align}
で定義される関数です. つまり大きさ$n$の標本に対して$x$以下である標本の数を$n$で割った数のことです. $\eqref{l-3}$を変形して,
\begin{align} nF_n(x) = \sum_{i=1}^n I(X_i \le x)\tag{\ref{l-3}'} \end{align}
と書けます. 右辺の各$I(X_i \le x)$はの定義$\eqref{l-4}$から$1$となる確率が$P(X_i \le x) = F(x)$であるベルヌーイ分布であるとみなせます. 従って,
\begin{align} nF_n(x) \sim \mathrm{Bin}(n,F(x)) \label{l-5} \end{align}
となることがわかります. $\mathrm{Bin}(n,p)$はパラメータ$n , p$の二項分布を表します.

標本分位数(サンプル分位数)

$0 < p < 1$となる$p$に対して, この標本に対する$p$標本分位数またはサンプル分位数($p$-th quantile of the sample distribution function $F$)は, 標本分布関数$F_n$に対する$p$分位数のことです.つまり,

\begin{align} \hat{Q}_{pn} = \inf \{x; {F_n}(x) \ge p\}\label{l-1} \end{align}
で定義されます. 混乱のないときには簡単に$\hat{Q}_{p}$と表記します. なお, $\hat{Q}_{\frac{1}{2}}$を標本メジアン(sample median)と呼ぶことがあります.ただし, 標本メジアンの正確な定義は,
\begin{align} Q'_{\frac{1}{2}} = \begin{cases}X_{\left(\frac{n+1}{2}\right)}& n\text{が奇数}\\ \cfrac{X_{\left(\frac{n}{2}\right)} + X_{\left(\frac{n}{2}+1\right)}}{2}& n\text{が偶数}\end{cases} \end{align}
です. ここで, $X_{(i)}$は標本を小さい順に並べ替えた時の$i$番目の標本を表します.つまり$\hat{Q}_{\frac{1}{2}}$は標本数が奇数のときは$Q'_{\frac{1}{2}}$と一致しますが, 偶数のときには一致しないことがあります.

標本分位数の漸近正規性

$F'(x+)$を$F$の右微分係数 , $F'(x-)$を$F$の左微分係数とします.

定理A. $0 < p < 1$とし, 確率分布関数$F$が$Q_p$で連続とするとき, 次が成り立つ.

  1. $F'(Q_p-)$が存在し, その値が正であるとき, 実数$t < 0$に対して,
    \begin{align} \lim_{n\to \infty} P\left(\frac{\sqrt{n}\left(\hat{Q}_{pn}-Q_p\right)}{\sqrt{p(1-p)}/F'(Q_p-)} \le t\right) = \Phi(t) \end{align}
  2. $F'(Q_p+)$が存在し, その値が正であるとき, 実数$t > 0$に対して,
    \begin{align}
    \lim_{n\to \infty} P\left(\frac{\sqrt{n}\left(\hat{Q}_{pn}-Q_p\right)}{\sqrt{p(1-p)}/F'(Q_p+)} \le t\right) = \Phi(t)
    \end{align}
  3. どんなときでも,
    \begin{align}
    \lim_{n\to \infty} P\left(\sqrt{n}\left(\hat{Q}_{pn}-Q_p\right) \le 0\right)= \Phi(0) = \frac{1}{2}
    \end{align}

定理の証明の前に, 2つの系を紹介します.

系A. $0 < p < 1$とし, 確率分布関数$F$が$Q_p$で微分可能であり, その微分係数が正であるとき,

\begin{align} \hat{Q}_{pn} \xrightarrow{d} \mathrm{N}\left(Q_p,\frac{p(1-p)}{F'(Q_p)^2n}\right) \end{align}
となる. 系B. $0 < p < 1$とし, 確率分布関数$F$が密度関数$f$を$Q_p$の近傍で持ち, $f$が$Q_p$で正であり連続ならば,
\begin{align} \hat{Q}_{pn} \xrightarrow{d} \mathrm{N}\left(Q_p,\frac{p(1-p)}{f(Q_p)^2n}\right) \end{align}
となる. $F$が$Q_p$で微分可能ならば, $F'(Q_p+) = F'(Q_p-) = F'(Q_p)$なので系Aが示されます. $f$が$F$の密度関数であるとき, 通常は$f = F'$とは限りませんが, $f$が$Q_p$で連続であるならば$f(Q_p) = F'(Q_p)$なので, 系Bが示されます.

定理Aの証明

$t$を固定し, $A > 0$を後で定義する標準化定数とする.また,

\begin{align}
G_n(t) = P\left(\frac{\sqrt{n}\left(\hat{Q}_{pn}-Q_p\right)}{A} \le t\right)\label{l-10}
\end{align}

と$G_n(t)$を定義します.
\begin{align}
G_n(t) &= P\left(\hat{Q}_{pn} \le Q_p + tAn^{-1/2}\right)\\
&= P\left(F_n(\hat{Q}_{pn}) \le F_n\left(Q_p + tAn^{-1/2}\right)\right)
\end{align}

$\hat{Q}_{pn}={F_n}^{-1}(p)$なので$\eqref{l-2}$より,
\begin{align}
G_n(t) &= P\left(p \le F_n\left(Q_p + tAn^{-1/2}\right)\right)\\
&=P\left(np \le nF_n\left(Q_p + tAn^{-1/2}\right)\right)
\end{align}

$\eqref{l-5}$から$nF_n(x)\sim \mathrm{Bin}(n,F(x))$なので,
\begin{align}
G_n(t) &= P\left[np \le B_n\left(F\left(Q_p + tAn^{-1/2}\right)\right)\right]
\end{align}

となる.ただし$B_n(y)$は二項分布$\mathrm{Bin}(n,y)$に従う確率変数を表します.$B_n(y)$を標準化します. つまり平均$ny$を引き, 標準偏差$\sqrt{ny(1-y)}$で割ります. これを$B_n^*(y)$とすると,
\begin{align}
B_n^*(y) = \frac{B_n(y)-ny}{\sqrt{ny(1-y)}}
\end{align}

となるので,
\begin{align}
G_n(t) = P(B_n^*(y_{nt}) \ge -c_{nt})\label{l-6}
\end{align}

とかけます.ただし,
\begin{align}
y_{nt} &= F\left(Q_p + tAn^{-1/2}\right) \label{l-8}\\
c_{nt} &= \frac{\sqrt{n}(y_{nt}-p)}{\sqrt{y_{nt}(1-y_{nt})}}\label{l-9}
\end{align}

です.

定理Aの(3)はこれから直ちに導けます.つまり$\eqref{l-6}$で$t=0$とおくと, $G_n(0)=P(B_n^*(p) \ge 0)$となりますが, これは$n\to\infty$で$\Phi(0)=1/2$に収束します.

定理Aの(1)と(2)に関しては, Berry-Esseenの定理を用います.これは,

\begin{align}
\sup_{x} \left| P(B_n^*(z) < x) - \Phi(x)\right| \le C\frac{\rho_z}{{\sigma_z}^3\sqrt{n}} = C\frac{\gamma(z)}{\sqrt{n}} \label{l-7} \end{align}
が成り立つというものです. ここで$C$は$z$に依存しない定数, ${\sigma_z}^2 = V(B_1(z)) = z(1-z)$ , $\rho_z= E[(B_1(z)-z)^3] = z(1-z)[(1-z)^2+z^2]$ですので,
\begin{align} \gamma(z) = \frac{(1-z)^2+z^2}{\sqrt{z(1-z)}} \end{align}
$\Phi(t)-G_n(t)$は$\eqref{l-6}$から,
\begin{align} \Phi(t)-G_n(t) &= \Phi(t) - P(B_n^*(y_{nt}) \ge -c_{nt})\\ &=\Phi(t) - \Big\{1- P(B_n^*(y_{nt}) < -c_{nt}) \Big\} \\ &=P(B_n^*(y_{nt}) < -c_{nt}) - [1-\Phi(t)]\\ &=P(B_n^*(y_{nt}) < -c_{nt}) - \Phi(-c_{nt}) + \Phi(t) - \Phi(c_{nt}) \end{align}
$\eqref{l-7}$より,
\begin{align} \Big| G_n(t) - \Phi(t) \Big| \le C\frac{\gamma(y_{nt})}{\sqrt{n}} + \Big|\Phi(t) -\Phi(c_{nt})\Big| \end{align}
が成り立ちます. $n \to \infty$とした際の右辺第1項目の挙動を調べます.
\begin{align} &y_{nt} = F\left(Q_p + tAn^{-1/2}\right) \to F(Q_p) = p \qquad(\because F\text{は}Q_p\text{で連続})\\ \Longrightarrow & \gamma(y_{nt}) = \frac{(1-y_{nt})^2 + {y_{nt}}^2}{\sqrt{y_{nt}(1-y_{nt})}} \to \frac{(1-p)^2 + {p^2}}{\sqrt{p(1-p)}} \lnl \Longrightarrow &C\frac{\gamma(y_{nt})}{\sqrt{n}} \to 0 \end{align}
次に,$n\to \infty$のとき右辺第2項目が$0$になる場合, つまり$c_{nt}\to t$となる$A$の条件を調べます. $\eqref{l-9}$から,
\begin{align} c_{nt} = \frac{tA}{\sqrt{y_{nt}(1-y_{nt})}}\cdot \frac{F\left(Q_p+tAn^{-1/2}\right) - F(Q_p)}{tAn^{-1/2}} \end{align}
のように変形できます. ここで, $t > 0$のとき$n\to \infty$とすると,
\begin{align}
c_{nt} \to \frac{tA}{\sqrt{p(1-p)}}F'(Q_p+)
\end{align}

であり, $t < 0$のときは,
\begin{align} c_{nt} \to \frac{tA}{\sqrt{p(1-p)}}F'(Q_p-) \end{align}
となることがわかります. ただしそれぞれ右または左微分係数$F'(Q_p+) , F'(Q_p-)$が存在することを仮定しています. この仮定の下, $c_{nt}\to t$となるためには,
\begin{align} t > 0 \text{のとき} A =\cfrac{\sqrt{p(1-p)}}{F'(Q_p+)}\lnl
t < 0 \text{のとき} A =\cfrac{\sqrt{p(1-p)}}{F'(Q_p-)} \end{align}
とすればよいことがわかります. これを$\eqref{l-10}$に代入し$n\to \infty$とすれば定理Aの(1)(2)が示されます.

定理Aの利用例:標本メジアンの極限分布

もし分布関数$F$が$Q_{1/2}$で微分可能なら, 標本メジアン$\hat{Q}_{1/2}$の極限分布は,

\begin{align}
\hat{Q}_{1/2} \xrightarrow{d} \mathrm{N}\left(Q_{1/2},\frac{1}{4nF'(Q_{1/2})^2}\right)
\end{align}

となります.さらに, $F$が密度関数$f$をもち, $f$が$Q_{1/2}$で連続なら,
\begin{align}
\hat{Q}_{1/2} \xrightarrow{d} \mathrm{N}\left(Q_{1/2},\frac{1}{4nf^2(Q_{1/2})}\right)
\end{align}

とも書けます.