ex6.3.12 二変量正規分布のパラメータの最尤推定量(MLE)

はじめに

「入門・演習 数理統計」の演習問題の自作解答を紹介します。

[商品価格に関しましては、リンクが作成された時点と現時点で情報が変更されている場合がございます。]

入門・演習数理統計 [ 野田一雄 ]
価格:3780円(税込、送料無料) (2018/4/3時点)



間違い等発見されましたらご指摘ください。
他の解答はこちらから。
なお、問題文は(必要がない限り)掲載しておりません。テキストを横に置いてご覧ください。

また、スマートフォン等では数式が画面からはみ出る場合があります。数式部分は横スクロールできます。



スポンサーリンク


$\newcommand{\lnl}{\\[8pt]}$ $\newcommand{\Lnl}{\\[18pt]}$ $\newcommand{\delt}{\mathrm{d}}$ $\newcommand{\comb}{\mathrm{C}}$ $\DeclareMathOperator*{\ssum}{\Sigma}$ $\DeclareMathOperator*{\sprod}{\Pi}$

ex6.3.12

二変量正規分布の結合確率密度関数を行列の形で表す.共分散行列$\Sigma$,平均ベクトル$\bm{\mu}$を

\begin{align}
&\Sigma = \left(\begin{array}{cc}
{\sigma_1}^2 & \rho\sigma_1\sigma_2 \\
\rho\sigma_1\sigma_2 & {\sigma_2}^2
\end{array} \right)\lnl
&\bm{\mu} = \left(\begin{array}{c}{\mu_1}\\{\mu_2}\end{array} \right)
\end{align}

で定義する.
以下,
\begin{align}
\bm{z}_i = \left(\begin{array}{c}{x_i}\\{y_i}\end{array} \right)
\end{align}

とすると,
\begin{align}
f(\bm{z};\bm{\mu},\Sigma) = \frac{1}{2\pi\sqrt{|\Sigma|}}\exp\left(-\frac{1}{2}\left(\bm{z}-\bm{\mu}\right)^{\mathrm{T}}\Sigma^{-1} \left(\bm{z}-\bm{\mu}\right) \right)
\end{align}

と表せる.
尤度関数は
\begin{align}
L(\bm{\mu},\Sigma;\bm{z}) =\left( \frac{1}{2\pi\sqrt{|\Sigma|}}\right)^n \exp\left(-\frac{1}{2} \sum_{i=1}^n \left(\bm{z}_i-\bm{\mu}\right)^{\mathrm{T}}\Sigma^{-1} \left(\bm{z}_i-\bm{\mu}\right) \right)
\end{align}

である.対数尤度関数$l=\log L$は,
\begin{align}
l(\bm{\mu},\Sigma;\bm{z}) = -n\log(2\pi) -\frac{n}{2}\log(|\Sigma|) -\frac{1}{2} \sum_{i=1}^n \left(\bm{z}_i-\bm{\mu}\right)^{\mathrm{T}}\Sigma^{-1} \left(\bm{z}_i-\bm{\mu}\right)
\end{align}

となる.

対数尤度関数を$\bm{\mu}$で微分する.

\begin{align}
\frac{\partial}{\partial \bm{\mu}} l &= -\frac{1}{2}\sum_{i=1}^n \left(-2\Sigma^{-1}(\bm{z_i}-\bm{\mu})\right)\lnl
&= \sum_{i=1}^n \left(\Sigma^{-1}(\bm{z_i}-\bm{\mu})\right)\lnl
&= \Sigma^{-1}\left(\sum_{i=1}^n \bm{z_i} – n\bm{\mu}\right)\lnl
\end{align}

最初の等式は補足1を参照のこと.

これが$\bm{0}$になるときが$L$を最大化することになる.左から$\Sigma$をかけて整理すると,

\begin{align}
&\Sigma^{-1}\left(\sum_{i=1}^n \bm{z_i} – n\bm{\mu}\right) = \bm{0}\lnl
\Longleftrightarrow & \sum_{i=1}^n \bm{z_i} – n\bm{\mu} =\bm{0}\lnl
\Longleftrightarrow & \bm{\mu} = \frac{1}{n}\sum_{i=1}^n\bm{z_i} \lnl
\Longleftrightarrow & \left(\begin{array}{c}{\mu_1}\\{\mu_2}\end{array} \right) = \frac{1}{n}\sum_{i=1}^n\left(\begin{array}{c}{x_i}\\{y_i}\end{array} \right) \lnl
\end{align}

従って,$\mu_1,\mu_2$の最尤推定量$\hat{\mu}_1, \hat{\mu}_2$は

\begin{align}
&\hat{\mu}_1 = \frac{1}{n}\sum_{i=1}^n X_i = \overline{X} \lnl
&\hat{\mu}_2 = \frac{1}{n}\sum_{i=1}^n Y_i = \overline{Y}
\end{align}

となる.

次に,$\Lambda= \Sigma^{-1}$として

\begin{align}
(\bm{z}-\bm{\mu})^{\mathrm{T}}\Sigma^{-1}(\bm{z}-\bm{\mu}) &= \mathrm{Tr}\Big((\bm{z}-\bm{\mu})^{\mathrm{T}}\Lambda(\bm{z}-\bm{\mu}) \Big)\lnl
&= \mathrm{Tr}\Big(\Lambda(\bm{z}-\bm{\mu})(\bm{z}-\bm{\mu})^{\mathrm{T}} \Big)
\end{align}

と書き換えておく.
最初の等式はスカラー$\alpha$に対して$\mathrm{Tr}(\alpha I) = \alpha\mathrm{Tr}( I)$であること,次の等式は$\mathrm{Tr}(AB) = \mathrm{Tr}(BA)$であることを用いた.

このとき,

\begin{align}
|\Sigma| = |\Lambda|^{-1}
\end{align}

であるので,対数尤度関数は
\begin{align}
l(\bm{\mu},\Lambda;\bm{z}) = -n\log(2\pi) +\frac{n}{2}\log(|\Lambda|) -\frac{1}{2} \sum_{i=1}^
n \mathrm{Tr}\Big(\Lambda(\bm{z}_i-\bm{\mu})(\bm{z}_i-\bm{\mu})^{\mathrm{T}} \Big)
\end{align}

となる.
\begin{align}
&\frac{\partial}{\partial \Lambda} \log(|\Lambda|) = \left(\Lambda^{-1}\right)^\mathrm{T}\lnl
&\frac{\partial}{\partial \Lambda}\mathrm{Tr}(\Lambda B) = B^\mathrm{T}
\end{align}

に注意して対数尤度関数を$\Lambda$で微分すると,
\begin{align}
\frac{\partial}{\partial \Lambda}l = \frac{n}{2}\left(\Lambda^{-1}\right)^\mathrm{T} -\frac{1}{2} \sum_{i=1}^
n \Big((\bm{z}_i-\bm{\mu})(\bm{z}_i-\bm{\mu})^{\mathrm{T}} \Big)^\mathrm{T}
\end{align}

これが$O$に等しいとおいて解くと,$\Sigma$の最尤推定量$\hat{\Sigma}$は

\begin{align}
\hat{\Sigma}= \hat{\Lambda}^{-1} = \frac{1}{n} \sum_{i=1}^
n (\bm{z}_i-\bm{\mu})(\bm{z}_i-\bm{\mu})^{\mathrm{T}} = \left(\begin{array}{cc}
{\hat{\sigma_1}}^2 & \hat{\rho}\hat{\sigma_1}\hat{\sigma_2} \\
\hat{\rho}\hat{\sigma_1}\hat{\sigma_2} & {\hat{\sigma_2}}^2
\end{array} \right)
\end{align}

ここで,
\begin{align}
(\bm{z}_i-\bm{\mu})(\bm{z}_i-\bm{\mu})^{\mathrm{T}} = \left( \begin{array}{cc}
(x_i-\mu_1)^2 & (x_i-\mu_1)(y_i-\mu_2) \\
(x_i-\mu_1)(y_i-\mu_2) & (y_i-\mu_2)^2
\end{array} \right)
\end{align}

なので,
\begin{align}
&\hat{\sigma_1}^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\hat{\mu_1})^2 = \frac{1}{n}\sum_{i=1}^n \left(X_i – \overline{X}\right)^2\Lnl
&\hat{\sigma_2}^2 = \frac{1}{n}\sum_{i=1}^n (y_i-\hat{\mu_2})^2 = \frac{1}{n}\sum_{i=1}^n \left(Y_i – \overline{Y}\right)^2\Lnl
&\hat{\rho} = \frac{1}{n \hat{\sigma_1}\hat{\sigma_2} }\sum_{i=1}^n(x_i-\hat{\mu}_1)(y_i-\hat{\mu}_2) = \frac{1}{n \hat{\sigma_1}\hat{\sigma_2} }\sum_{i=1}^n\left(X_i-\overline{X}\right)\left(Y_i-\overline{Y}\right)
\end{align}

となり示された.

補足1:微分$\cfrac{\partial}{\partial \bm{\mu}}\left(\bm{z}_i-\bm{\mu}\right)^{\mathrm{T}}\Sigma^{-1} \left(\bm{z}_i-\bm{\mu}\right)$

$\bm{z}_i – \bm{\mu} = \bm{s}$とおく.$\bm{\mu}$の第$j$要素を$\mu_j$とし, $\Sigma^{-1}$の第$lk$要素を$a_{lk}$とおく($j,k,l = 1,2$)

\begin{align}
\cfrac{\partial}{\partial \mu_j}\bm{s}^\mathrm{T}\Sigma^{-1}\bm{s} &= \cfrac{\partial}{\partial \mu_j}\Big(\sum_{l,k}a_{lk}s_l s_k \Big)\lnl
&=\cfrac{\partial}{\partial \mu_j}\left(a_{jj}{s_j}^2 + \sum_{l\neq j} a_{lj}s_l s_j + \sum_{k\neq j}a_{jk}s_j s_k + \sum_{l\neq j , k\neq j} a_{lk}s_l s_k \right)\lnl
&= a_{jj}\frac{\partial\left({s_j}^2\right)}{\partial \mu_j} + \sum_{l\neq j} a_{lj}s_l \frac{\partial s_j}{\partial \mu_j} + \sum_{k\neq j} a_{jk}s_k \frac{\partial s_j}{\partial \mu_j} + 0\label{eq-mu-j}
\end{align}

ここで,
\begin{align}
&\frac{\partial\left({s_j}^2\right)}{\partial \mu_j} = \frac{\partial\left((z_j – \mu_j)^2\right)}{\partial \mu_j} = -2(z_j-\mu_j) = -2s_j\lnl
&\frac{\partial s_j}{\partial \mu_j} = \frac{\partial\left(z_j – \mu_j\right)}{\partial \mu_j} = -1
\end{align}

なので,$\eqref{eq-mu-j}$に代入すると,
\begin{align}
\cfrac{\partial}{\partial \mu_j}\bm{s}^\mathrm{T}\Sigma^{-1}\bm{s} &= -2a_{jj}s_j -\sum_{l\neq j} a_{lj}s_l – \sum_{k\neq j} a_{jk}s_k \lnl
&= -\left(\sum_{l} a_{lj}s_l + \sum_{k} a_{jk}s_k\right)
\end{align}

となるから,$\Sigma^{-1} = (\Sigma^{-1})^\mathrm{T}$に注意すると,
\begin{align}
\frac{\partial}{\partial \bm{\mu}} \bm{s}^\mathrm{T}\Sigma^{-1}\bm{s} &= -\left( \Sigma^{-1} + (\Sigma^{-1})^\mathrm{T}\right)\bm{s}\lnl
&= -2\Sigma^{-1} \bm{s}\lnl
&= -2\Sigma^{-1} (\bm{z}_i – \bm{\mu})
\end{align}