2021-01-03 (Sun.)
標本のことを考える.
この文書は統計検定2級用のチートシートを兼ねてる. \(\def\N{\mathcal N}\def\bar#1{\overline{#1}}\def\bbar#1{\overline{\overline{#1}}}\)
確率変数を大英字を使って \(X,Y, X_i\) などと書く. これを実関数で写して得る確率変数を例えば \(X+1\) とか \(2X\) とか書く.
その期待値は頭に \(E\) を付けて, \(EX\) などと書く. \(E\) が掛かってる部分が曖昧な場合だけカッコを補って \(E(X+1)\) とか \(E(2X)\) などと書く.
平均を \(\mu\), 分散を \(\sigma^2\) に持つ正規分布を \(\N(\mu,\sigma^2)\) と書く. 確率変数 \(X\) がこれに従うことを \[X \sim \mathcal N(\mu, \sigma^2)\] と書く.
\(X \sim \N(\mu,\sigma^2)\) のとき, \(E(X^2) = \mu^2 + \sigma^2\).
\(X \sim \N(\mu,\sigma^2)\) のとき, 任意の実数 \(a,b\) について, \[aX+b \sim \N(a\mu + b, a^2 \sigma^2).\]
2つの独立な確率変数がそれぞれ \(X \sim \N(\mu_X, \sigma_X^2)\), \(Y \sim \N(\mu_Y, \sigma_Y^2)\) であるとする. これらを任意の実数 \(a,b\) で線形結合した確率変数 \(aX+bY\) は次のような正規分布に従う: \[aX + bY \sim \N(a \mu_X + b \mu_Y, a^2 \sigma_X^2 + b^2 \sigma_Y^2).\]
正規分布 \(\N(\mu,\sigma^2)\) から独立にサンプリングして得た \(n\) 個の点 \[X_1, \ldots,X_n\] を 標本 と呼ぶ.
この \(n\) 点の標本が与えられたときに母平均 \(\mu\) を推定することを考える. 次の値は 標本平均 と呼び, \(\mu\) の推定値に使われる. \[\bar{X} = \frac{1}{n} \sum_i X_i\]
その推定量(ここでは標本平均)の期待値が推定したい真の値に一致するとき, これを 不偏推定量 という.
標本平均は不偏推定量である. つまり, \[E \bar{X} = \mu\] が成り立つ.
期待値の線形性から確認出来る. \[\begin{align*} E \bar{X} & = E \frac{1}{n} \sum_i X_i \\ & = \frac{1}{n} \sum_i E X_i \\ & = \frac{1}{n} \sum_i \mu \\ & = \mu \\ \end{align*}\]
サンプル数 \(n\) を無限大に大きくしたその極限値を取ったときに, 推定量が真の値に一致するとき, 一致推定量 であるという.
標本平均は一致推定量である. つまり, \[\bar{X} \to \mu ~~ (n \to \infty)\] が成り立つ.
形式的に書く場合は, \(\epsilon-\delta\) のときみたいに, 「十分大きいな \(n\) を取れば, \(\| \bar{X} - \mu \|\) を任意の正数未満にする確率を任意精度で達成できる」みたいな形で定義するはず. ここではフランクに実関数の極限のように記述する.
確率変数 \(n \bar{X} = \sum_i X_i\) が従う確率分布を考える. これは同じ正規分布の \(n\) 個の和だから, \[n \bar{X} \sim \N(n \mu, n \sigma^2).\] 両辺を \(1/n\) 倍して, \[\bar{X} \sim \N(\mu, \sigma^2/n).\]
これを見ても \(E \bar{X} = \mu\) はすぐ分かる.
分散の方にだけ \(/n\) というのがあるのがポイントで, これのおかげで \(n \to \infty\) のときに分散がゼロになるので, 任意精度で \(\bar{X} \to \mu\) に近づける事ができる.
\(n\) 点の標本 \[X_1, \ldots,X_n \sim \mathcal(\mu,\sigma^2)\] から母分散 \(\sigma^2\) を推定することを考える. これには 不偏分散 と呼ばれる次の値が使われる. \[V_X = \frac{1}{n-1} \sum_i (X_i - \bar{X})^2\] ここで \(\bar{X}\) は先程定義した \(\sum_i X_i / n\) のこと.
単純平均として \(n\) で割ったものを標本分散という. 以下で述べる理由から標本分散を使う機会は無く, 不偏分散のことだけを考えてれば良い.
\(n-1\) で割る前の値を \(S^2\) という名前で呼ぶことにする. \[S^2 = \sum_i (X_i - \bar{X})^2\]
不偏分散は不偏推定量なので不偏分散と呼ばれる.
いきなり \(n-1\) で割ってる値を考えるのは気持ち悪いので, \(S^2\) の期待値を計算して, \(n-1\) で割る自然さを獲得したい. あと \((X_i - \bar{X})^2\) という値も実はやばくて, サンプルの値をサンプルの平均値で引いている. \(\mu\) という真の値との差を調べるのが自然で, つまり \((X_i - \bar{X})^2 = \left[ (X_i - \mu) - (\bar{X} - \mu) \right]^2\) という式変形をしてこの右辺を考えるのが筋が良い. なぜなら, \(\mu\) は真にただの定数だから, \(X_i - \mu\) も \(\bar{X} - \mu\) も正規分布に従うだけの確率変数になって計算がキレイになるから.
\[\begin{align*} (X_i - \bar{X})^2 & = \left[ (X_i - \mu) - (\bar{X} - \mu) \right]^2 \\ & = (X_i - \mu)^2 + (\bar{X} - \mu)^2 - 2 (X_i -\mu) (\bar{X} - \mu) \\ \sum_i (X_i - \bar{X})^2 & = \sum_i (X_i - \mu)^2 + n (\bar{X} - \mu)^2 - 2 \sum_i (X_i -\mu) (\bar{X} - \mu) \\ & = \sum_i (X_i - \mu)^2 + n (\bar{X} - \mu)^2 - 2 n (\bar{X} -\mu) (\bar{X} - \mu) \\ & = \sum_i (X_i - \mu)^2 - n (\bar{X} - \mu)^2 \\ E \sum_i (X_i - \bar{X})^2 & = \sum_i E (X_i - \mu)^2 - n E (\bar{X} - \mu)^2 \\ \end{align*}\]
ここで \(X_i, \bar{X}\) の分布は分かってるので
さらに正規分布に対する \(EX^2\) という二次モーメントも普通に分かって(前提知識参照),
\[\begin{align*} \sum_i E (X_i - \mu)^2 - n E (\bar{X} - \mu)^2 & = \sum_i \sigma^2 - n (\sigma^2/n) \\ & = n \sigma^2 - n (\sigma^2/n) \\ & = (n-1) \sigma^2 \end{align*}\]
というわけで \[ES^2 = (n-1) \sigma^2\] が得られた. また, \(V_X = S^2/(n-1)\) としておけば \[EV_X = \sigma^2\] を得て, これが分散の不偏推定量となる.
次の話と被るのと厳密な話は出来ないので省略.
独立な \(p\) 個の確率変数が標準正規分布に従っているとする. \[Y_1, \ldots, Y_p \sim \N(0,1)\] このときに次の確率変数 \[Z = \sum_i Y_i^2\] が従う確率分布のことを自由度 \(p\) の \(\chi^2_p\) 分布という.
期待値は \(p\), 分散は \(2p\). \(p \to \infty\) のとき, 大変緩やかに正規分布に近づく.
\(X \sim \chi^2_m\) と \(Y \sim \chi^2_n\) について \(X + Y \sim \chi^2_{m+n}\) が成り立つ. この性質には 再生性 という名前がついている.
ここが本題.
\(n\) 点の標本 \[X_1, \ldots, X_n \sim \N(\mu, \sigma)\] があるとき, \[Z_i = \frac{X_i - \mu}{\sigma}\] とすればこれは標準正規分布に従う. \[Z_1, \ldots, Z_n \sim \N(0,1)\] 従って, 列ベクトル \(Z = [Z_1, \ldots, Z_n]^T\) とおけば, このベクトルは多次元正規分布に従う \[Z \sim \N(0_n, I_n).\]
やや唐突だが, \(n \times n\) の直交行列 \(G\) を考える. しかもその第一行ベクトル \(g^1\) が \[g^1 = \frac{1}{\sqrt{n}} [1, 1, \ldots, 1]\] であるようなものが存在する(例えばグラムシュミットの方法で具体的に得られる).
\(Y = GZ\) という確率変数を考えるとこれが従う正規分布は, \[\begin{align*} Y = GZ & \sim \N(G 0_n, G I_n G^{-1}) \\ & \sim \N(0_n, I_n) \\ \end{align*}\] となって, やはり \(Y\) も標準正規分布に従う.
さて, 不偏分散が不偏推定量を確かめる中で次の式を確認した. \[S^2 = \sum_i (X_i - \bar{X})^2 = \sum_i (X_i - \mu)^2 - n(\bar{X} - \mu)^2\] ここに \(X_i = \mu + \sigma Z_i\) と \(\bar{X} = \mu + \sigma \bar{Z}\) (\(\bar{Z}\) は \(Z_i\) での標本平均) をそれぞれ代入してキレイにすれば, \[S^2/\sigma^2 = \sum_i (Z_i - \bar{Z})^2 = \sum_i Z_i^2 - n \bar{Z}^2\]
右辺第一項の \(\sum_i Z_i^2\) というのはベクトルのノルム \(\| Z \|^2\) のことである. ここでしかも \(\|Y\|^2 = \| GZ \|^2 = \|Z\|^2\) が成り立つ.
次に右辺第二項の \(n \bar{Z}^2\) をよく睨むと, ベクトル \(Y\) の第一成分 \(Y_1\) について \[\begin{align*} Y_1 & = g^1 Z \\ & = \frac{1}{\sqrt{n}} 1 Z \\ & = \frac{1}{\sqrt{n}} \sum_i Z_i \\ & = \sqrt{n} \bar{Z} \\ Y_1^2 & = n \bar{Z}^2 \\ \end{align*}\] というわけでこれらを入れれば, \[S^2/\sigma^2 = \|Y\|^2 - Y_1^2\] 右辺をもっと展開すれば, \[S^2/\sigma^2 = Y_2^2 + Y_3^2 + \cdots + Y_n^2\] つまり, \(Y_1\) だけを除いた \(n-1\) 点の(しかも独立な)確率変数の自乗和を表している.
というわけで定義から \[S^2 / \sigma^2 \sim \chi^2_{n-1}\] が得られた.
\(n \to \infty\) のときに \(\chi^2_{n-1}\) が正規分布 \(\N(n-1, 2n-2)\) に近づくことを使っていいなら, 不偏分散が一致推定量であることも分かる.
2つの独立な確率変数が
とあるとき, \[X = \frac{Z}{\sqrt{W/p}}\] が従う確率分布を自由度 \(p\) の t 分布といって \[X \sim t_p\] と書く.
\(\N(\mu, \sigma^2)\) からの \(n\) 点標本 \(\{ X_1, \ldots, X_n \}\) について,
という値を見てきた. 適当にゴニョって,
であることも既に分かっている. というわけで, \[\frac{Z}{\sqrt{W/(n-1)}} = \frac{\bar{X} - \mu}{\sqrt{V_X~n}} \sim t_{n-1}\] これが自由度 \(n-1\) の t 分布に従っている.
2つの独立な確率変数
があるとき, \[X = \frac{U/p}{V/q}\] という値が従う確率分布のことを自由度 \((p,q)\) の F 分布 \(F(p,q)\) という.
二種類の標本がある場合を考える.
それぞれの不偏分散 \(V_X, V_Y\) を計算すれば, それぞれが \(\chi^2_{p-1}\), \(\chi^2_{q-1}\) に従うのだった. というわけで, \[Z = \frac{V_X / \sigma^2_X}{V_Y / \sigma^2_Y} \sim F(n-1,m-1)\] になる.
ある要因 \(A = \{A_1, A_2, \ldots, A_a\}\) によって観測値に差があるかを分析したい.
次のような標本があるとする. 各要因 \(i=1,2,\ldots,a\) について, 一定個数 \(j=1,2,\ldots,r\) の観測値 \(X_i^j\) が与えられる.
ここで観測値はいつも次のようにモデル化されるということにしておく.
要因によって差があるかどうかとは, \(\alpha_i = 0\) であるかどうかということ.
全体の平均を \[\bbar{X} = \frac{1}{ar} \sum_i \sum_j X_i^j,\] 要因 \(A_i\) の中での平均を \[\bar{X_i} = \frac{1}{r} \sum_j X_i^j\] と置く.
次のような総平方和と呼ばれる値を調べる.
\[\begin{align*} \sum_i \sum_j (X_i^j - \bbar{X})^2 & = \sum_i \sum_j (X_i^j - \bar{X_i} + \bar{X_i} - \bbar{X})^2 \\ & = \sum_i \sum_j \left[ (X_i^j - \bar{X_i})^2 + (\bar{X_i} - \bbar{X})^2 + 2 (X_i^j - \bar{X_i}) (\bar{X_i} - \bbar{X}) \right] \\ & = \sum_i \sum_j (X_i^j - \bar{X_i})^2 + \sum_i r (\bar{X_i} - \bbar{X})^2 + 0 \\ \end{align*}\]
最後のが \(0\) になるのはよく見ると分かる.
この全体の値を先言ったように総平方和 \(S_T\) という. 最後の右辺の第一項を残差平方和 \(S_e\) という. 第二項を水準間平方和 \(S_A\) という.
今までの不偏分散についての議論をそのままここに適用すれば, \[S_T / \sigma^2 \sim \chi^2_{ar-1}\] となる. この自由度が特に重要.
\(S_A\) は結局 \(i=1,2,\ldots,a\) という \(a\) 個の標本の不偏分散に過ぎないので \[S_A / \sigma^2 \sim \chi^2_{a-1}.\]
\(S_e\) もやはり \(\chi^2\) 分布に従うがその自由度はやや直感的には分かりにくい. ここで \(\chi^2\) 分布の再生性を使えば, 単に足し引きで分かる. \(S_T, S_A\) の自由度は分かっているのでその差の \(a(r-1)\) が自由度である. \[S_e / \sigma^2 \sim \chi^2_{a(r-1)}\]
というわけで次のような F 分布に従う値を得る:
\[X = \frac{S_A / (a-1)}{S_e / a(r-1)} \sim F(a-1, a(r-1)).\]
直感的にはこれは誤差 \(\epsilon\) の影響を取り除いた要因ごとの影響の強さを表している.