統計検定2級の勉強をする. 参考書を持ってないのでひたすら過去問を解いてみる.
このリンクは次の試験が始まると消されてしまう. ところで こんなの がある. 正解はこれの一番最後のページにある.
データ点を数直線上 \(\mathbb R\) に載せる. 点の数が四等分になるように重ならない4区間に数直線を分割すると, 3つの境値が手に入る. これを小さいものから 第一四分位数 (first quartile, \(Q_1\)), 中央値 (second quartile, \(Q_2\)), 第三四分位数 (third quartile, \(Q_3\)) という. さらに第3四分位数と第1の四分位数との差を 四分位範囲 という.
与えられた箱ひげ図によれば, 東京は \(Q_1=6, Q_2=8, Q_3=9.8\) くらい. したがって, \([Q_1,Q_2], [Q_2,Q_3]\) に入ってる点数が同じ. 一方でこの階級に照らし合わせると, \([Q_1,Q_2)\) はあるけど, \([Q_2,Q_3]\) というのがなくて, 近いのは \([Q_2, 10)\). したがって, 6~8 の度数より, 8~10 の度数のが多いはず. 答えは A,C,D のどれか.
それと, 外れ値を見ると, 次の3つのことが言える。
この 2 と 3 の条件だけから A であることが分かる.
具体的な数字が与えられてないので大体で考える. x=y の上にのってれば 1. 1990年はだいぶ載っていそう. 選択肢を見ると 0.38 か 0.71 かだが, こんくらいのってれば 0.71 はあるだろう. 答えは 4 または 5 に絞れる. とすると 2015 年の相関係数は 0.4 または 0.74. 2015年はこれもある程度は相関してるが, y切片がだいぶずれていて, 1990年よりは低いはず. したがって 0.71 より小さくあるべきなので 0.4 だとわかる. 答えは 4.
外れ値を見る. 18%以上は1点. 10%未満は2点. とすると答えは1なんだけど, ちょうど10%くらいの点もあって, もしかしたら3が答えかも. 1と3を区別するために10~12の点を数える. いっぱいありそう. というわけで答えは3だった.
賃金指数が何かは問題文に書いてある. 何か分からんがそういう数字だと思うことにする. 変化率は大体そのまんま.
H30/1 の賃金指数が \(X_0\), H31/1 の賃金指数が \(X_1\) だとする. この変化率が \(r = -0.97\) であるとは, \[r = \frac{X_1 - X_0}{X_0}\] ということ. こういう状況のときに, H30/12 の賃金指数 \(Y\) に対して, \[r' = \frac{X_1 - Y}{Y}\] を求めよという問題.
面倒なので % に関する 100 で割ったり掛けたりは無視する.
一式目を \(X_1\) について解けば \[X_1 = X_0 r + X_0\] これを二式目に代入して, \[r' = \frac{X_0 r + X_0 - Y}{Y} = \frac{X_0 (1+r)}{Y} - 1\] ここで \(r\) がマイナスの値であることには注意.
この形式をしているのは, 1と3だけど分母が \(Y=104.1\) なのに注意すれば 1 が答え.
平均変化率とは何かが問題に書いてある. 各々前月からの変化率を考えていることに注意.
ところで, ここで与えられる数字は 102.6, 105.6 なので, これ以外の値が突然出てきてる答えは除外していいに決まってる. それから今考えてるのは複利なので, 4 に決まってるな.
術語の問題.
というわけで,
答えは2.
時系列データ \(X = \{x_t\}\) について, ラグ \(d\) として, \(X^d = \{(x_d, x_{t+d}) \}\) という自己相関データを作る. \(d=1,2,\ldots\) に対して \(X^d\) の中での相関係数を棒グラフで図示したものを コレログラム という.
これは時系列データが周期を持つかを調べることが出来る. \(X\) が周期 \(\ell\) を持っていた場合, コレログラフは \(d=0, \ell, 2\ell, 3\ell, \ldots\) で極端に高い値を取るはず. (\(d=0\) のときは自明に相関係数 \(1\) を取る.)
さて問5の初めの時系列データを見ると, 明らかに周期性を持っていそうで, その周期はちょうど1年くらい. コレログラムは 1,2,3 のときに高くてその逆位相 (0.5, 1.5, 2.5) のときに最低になってるはず.
選択肢だが, 横軸の単位がないがたぶん, 月だろう. 12,24,36 で高くて, 6,18,30 で低いのは 2 だけ.
術語覚えゲーム.
さて選択肢.
答えは2.
単に標準誤差 (Standard Error of the Mean; SEM) という場合, 次のようなもの.
\(n\) 点をサンプリングしてきて, 標準偏差が \(\sigma\) のとき, \[\mathrm{SEM} = \frac{\sigma}{\sqrt{n}}\]
したがって今の場合, \(\hat{\sigma} = 4.0\) に注意して, 0.4 が答え.
同時確率. \(20\% \times 70\%\) が答え.
条件付き確率.
\(\def\gokaku{\mathrm{合格}}\def\jukou{\mathrm{受講}}\) 知りたいのは \(P(\jukou \mid \gokaku)\). ベイズすれば, \[P(\jukou \mid \gokaku) = P(\gokaku, \jukou) / P(\gokaku)\] ただし \(P(\gokaku) = P(\gokaku, \jukou) + P(\gokaku, \lnot\jukou)\) (周辺化)
以上から, \[\begin{align*} P(\jukou \mid \gokaku) & = 1 / \left( 1 + \frac{P(\gokaku, \lnot\jukou) }{ P(\gokaku, \jukou) } \right. \\ & = 1 / \left(1 + \frac{0.8 \times 0.3 }{ 0.2 \times 0.7 } \right) \\ & = 1 / \left(1 + \frac{0.8 \times 0.3 }{ 0.2 \times 0.7 } \right) \\ & = 1 / (1 + \frac{12}{7}) \\ & = \frac{7}{19} \\ & = 0.368421 \\ \end{align*}\]
答えは 0.37.
\(f\) を全体で積分すると 1 になってるはず. \(f\) の様子を考えればよくて, 見たところ直線になってるようなので \(f(0)\) と \(f(20)\) を直線で繋げばいい. \(f(0) = a\), \(f(20) = 0\). これを積分するとは三角形の面積を求めることで, \[\int_X f(x) dx = a \times 20 / 2 = 10a\] これが \(1\) なので, \(a=1/10\).
期待値は \[\int_X x f(x) dx = \int dx a(x-x^2/20) = \left[ a(x^2/2 - x^3/60) + C \right] = 20/3\]
三角形なのでだいたい重点が期待値になるに決まってて, それで考えても解ける.
使用料金に関する次の確率は密度関数の積分から計算出来て (あるいは三角形の面積から),
使用料金の期待値は, \[1000 \times P(0<x<10) + 1120 \times P(10<x<15) + 1280 \times P(15<x<20)\] ぱっとみて比重が \(P(0<x<10)\) なので大体1000くらいでこれより大きいくらいの値. 1250 だとでかすぎるので 1040 が答えだろう.
累積分布関数のことを分布関数と呼んでそう.
選択肢を見ると, \(F_X(x=0)\) の値だけ調べれば良さそう. \[F_X(0) = P[X \leq 0] = P[X=0] = P[Z>100] = 1 - P[Z \leq 100] = 0.04\] また \(F_Z(0) = P[X \leq 0] = 0\) 以上に合致する答えは 3.
下側95%点が \(x\) であるとはつまり, \[F_X(x) = 0.95\] であること. (1) の解答より, \(F_Z(x) = F_X(x) - 0.04 = 0.91\). よって \(x=5\).
\(X\) の密度関数を \(f_X\) とも書くことにすれば, \(X\) の期待値は \(\int x f_X(x) dx\). これを \(F_Z, f_Z\) で表現すればいい.
最後の式の両辺を微分すれば, \(f_Z = f_X\). というわけで \(X\) の期待値は \[\int z f_Z(z) dz\]
データ \(\{x_i\}\) の歪度(わいど)とは \[\frac{n}{(n-1)(n-2)} \sum_i \left( \frac{x_i - \bar{x}}{\sigma} \right)^3\] ヒストグラムをかいたとき, 完全に左右対称だと歪度はゼロで, 平均が左に寄ってるとき正の値, 右に寄ってるとき負の値をとる.
さて選択肢.
というわけで全部誤り.
真の値 \(\theta\) に対して, 推定量 \(\theta'\) が不偏であるとは, \[\mathbb E[\theta'] = \theta\] であること.
一方で, サンプル数 \(n\) のときに \(\theta^n\) を推定する場合に, これが一致推定量であるとは, \[\lim_{n \to \infty} P[ \| \theta^n - \theta \| < \epsilon ] = 1\] であること.
平均的に正しければ不偏. サンプル数を十分大きくすると真に正しくなるのが一致推定量.
平均の推定. 普通にサンプルの全部の平均を取る標本平均は一致かつ不偏.
分散の推定. 普通の標本分散は一致ではあるが, 不偏でない. \(n\) で割る代わりに \(n-1\) で割ったものは一致かつ不偏になる (\(\frac{1}{n-1} (x_i - \bar{x})^2\)).
さてこの問題だが, \(\hat{\mu_1}\) はその平均はつまり \(X_i\) の平均であり, これは真の平均なので, 不偏ではある. しかし有限個の平均をとってるだけなので, サンプル数を増やしても一致はしない. \(\hat{\mu_2}\) は普通の標本平均なので, 一致かつ不偏.
というわけで, I, III, IV が正しい.
標準正規分布 \(\mathcal N(0,1)\) の95%信頼区間を調べる. 付表の初めに具体的な値の表があるのでこれを使う. 95%信頼区間とは中央から左右対称にとってきて確率が95%の区間のことを言う. すなわち \(Q(u) = 2.5\%\) な点を探せばよくて, \(u=1.96\) (ぴったりな点が用意されている!). \([-1.96, 1.96]\) が95%信頼区間である.
今考えている100点サンプルによる分布は正規分布であるとしているので, \(\mathcal N(0,1)\) を期待値の分だけ横に平行移動して, 横方向に拡大または縮小したものだ. 期待値は明らかに 0.54 と分かっているので, 横方向の拡大率を調べればいい.
実は, 分布を標準化するには, \[x \mapsto \frac{x - \mu}{\sigma / \sqrt{n}}\] とするとよい. \(\mu= 0.54\). そしてこの分母はさっきでてきた SEM のことである.
今考えているのはAに投票するかしないかの二項分布で, これを正規分布だと思うことにしている. これの分散は, \(V= E[X^2] - E[X]^2 = 1/2-(1/2)^2=1/4\). したがって \(\sigma = 1/2\). 今サンプル数は \(n=100\). これらを代入すれば, SEM は \(1/20\).
このサンプルが作る分布は標準正規分布を平行移動して 1/20 倍に縮小したもの.
信頼区間も \(1.96 / 20 = 0.098\) から, \([-0.098, 0.098]\) だと分かる.
答えは5.
まず中央値を探す. 低い階級の度数から順に累積して足していくことで,
したがって, 中央値は 400万以上 500万未満のところにあることが分かった. 「中央値の半分」というのは 200万以上 250万未満のことである. 「中央値の半分に満たない」とは「200万未満」または「250万未満」のこと. したがって, 19.6% 以上 33.3% 以下が正解.
さっきも登場したこの \(Z\) が何かということ, これは \(n \to \infty\) の極限を取ると \(\mathcal N(0,1)\) になるというもの. したがって正解は3.
選択肢2はほとんど正しいが, 母集団は正規分布でないといけないので誤り.
事前分布としては, 支持する/しないが当確率だとしておけばいい. これを確率変数 \(X=0,1\) に割り当てておくと, \(EX=1/2, VX=1/4\). サンプル数 \(n\) として, \(X\) の標準化標本統計量 \(Z\) は \[Z_i = \frac{X_i - 1/2}{\sqrt{VX / n}}\]
さっきも見たように標準正規分布で95%信頼区間は \([-1.96, 1.96]\). これを 6% 未満, つまり \([-0.03, 0.03]\) にしたいということは, \(0.03/1.96 = 0.015306\) 倍にしたいということ. \(\sqrt{VX/n} = 0.015306\) 未満程度になればいい.
両辺の2乗を取っておいて \(VX/n = 0.00023427\) 未満程度としておく.
\(VX=1/2\) と \(n\) として選択肢の数字を代入してみれば,
というわけで1100人は必要みたい.
分散が変わる. \(EX=0.8\) であるといっているので \(VX = E(X^2) - (EX)^2 = 0.8 - 0.8 \times 0.8 = 0.16\).
700人でいいみたい.
正規分布 \(\mathcal N(\mu, \sigma^2)\) に従う \(n\) 点データ \(\{X_i\}\) の標本平均 \(\bar{X}\), 不偏分散 (\((n-1)\) で割るやつ) を \(S^2\) とする. このとき \[t = \frac{\bar{X} - \mu}{S / \sqrt{n}}\] これは自由度 \(n-1\) の t 分布に従う. t分布は \(n \to \infty\) のとき, 標準正規分布と一致する.
答えは自由度 \(n-1\) の t 分布
仮説検定
今の場合は体重の変化なしとするのが帰無仮説で, 体重の減少があったとするのが対立仮説. それぞれは \(\mu = 0\), \(\mu > 0\) と表される.
母集団が正規分布に従うことにしているので, t 検定をする. \(\mu=0\) に関する \(t\) 値は, \[t = \frac{\bar{X} - \mu}{\sqrt{S^2 / n}} = \frac{0.5 - 0}{1.5 / \sqrt{16}} = 4/3 = 1.333\]
今からしたいのが 両側検定なのか片側検定なのか によって見る点 \(t_\alpha(\nu)\) は違う. 対立仮説が左右対称(イコールかノットイコールか)なら両側、 左右非対称(大小比較)であれば片側をする. 今の場合, 一方は一方より大きいという左右非対称なことを確かめたいので片側検定.
片側での5%有意な点というのはつまり上側 5% の点を見ればよくて, また自由度 \(\nu\) は \(n-1=15\) に注意して \(t_{0.05}(15) = 1.753\) であることが付表2から読み取れる.
棄却するかの判定はこの点より左にあるか右にあるかどうかだけを見れば良くて, 今の場合 \(t < 1.753\) なので棄却はされず, 「効果があるとは言えない」が結論になる.
「効果がない」ではなくて「効果があるとは言えない」という結論づけであることに注意.
3群以上のデータについて平均の差を検討する手法として分散分析がある. 次のように行う.
\(N\) 点データ \(\{X_i\}\) が \(K\) 個のグループに分割されているとする: \[\{ X_i \}_N = \{ X_i^1 \}_{N_1} \cup \{ X_i^2 \}_{N_2} \cup \ldots \cup \{ X_i^K \}_{N_K}\] ここで群はある要因によって分割されているとする. この問題なら「何月」というのが要因で, データをこれによって分割している.
平均を計算する.
次に不偏分散を計算する. これは次のように順序立てて計算することになっているらしい.
最後に統計量 \(F\) 値を計算する. これは \[F = \frac{V_1}{V_2}\] で与えられる.
この量 \(F\) は \(\geq 0\) の範囲で分布する \(F\) 分布に従う量で, 上側に関する片側検定をすることに意味がある. つまり,
この問題で水準間平方和 \(S_A\) としてあるのがおそらく要因の平方和のこと. \(S_e\) は残差.
この問題では要因としては月だけを考えているので年ごとの平均というのはミスリーディング.
選択肢は1が答え.
全体のデータ点が \(N = 12 \times 11 = 132\) 個. 全体の自由度は \(N - 1 = 131\). 要因ごとの自由度は \(K - 1 = 12 - 1 = 11\). 残差の自由度は \(N - N_k = 132 - 12 = 120\), または全体の自由度と要因の自由度の差で \(131-11 = 120\).
帰無仮説は「全てが等しいこと」である. ただしこれでは選択肢は絞れない.
対立仮説は「いずれかが異なる」である. ここで I は誤りであることが分かる.
付表のF分布表を読む. 今このF分布の自由度は \((11, 120)\). これで上側5%の点は, ぴったりがないんだけど, 1.910 より小さくて 1.750 よりは大きいことだけが分かる. 今 \(F = 3.0471\) と, これらより大きいので帰無仮説は棄却していい. したがって II は誤り.
P値は棄却出来るギリギリの上側確率のこと, であってる??? 自由度 \((11,120)\) の値が付表にないので諦めて \((10,120)\) から読む.
\(F_p\) の \(p\) に関して単調減少であることはこれを見ても, あるいは意味を考えても明らか.
与えられたデータでは \(F=3.0471\) であってもっと \(p=0.025\) の値よりも大きいので, \(F=3.0471\) に対応する p 値はもっと小さいことが分かる.
以上から III は正しい.
普通の線形回帰モデル. Estimate が対応する係数のことだろう. Intercept は切片ね. 選択肢1しか正しくない.
I について. 最小2乗誤差で最適化するとこれが成り立つ.
今データ \(\{ (x_i, y_i) \}\) をモデル \(\hat{y_i} = a + b x_i\) で表している. そして最小二乗法をしているということは \[L = \sum_i (y_i - a - b x_i)^2\] という値を最小化している. そのときはもちろん \(L\) の勾配がゼロであるということ. \(a\) で微分すると良くて \[\partial_a L = - \sum_i (y_i - a - b x_i) = 0\] すなわち, \[\sum_i y_i = \sum_i (a+bx_i) = \sum_i \hat{y_i}\] を得る. 両辺を \(N\) で割れば, 平均が等しいことも分かる.
II について. 平均を期待値と読み替えておけば, 期待値の線形性から分かる.
\(\hat{y} = 14.4 + 0.4 x\) であって, 期待値 \(Ey=31.3\) であるという. \[Ex = (Ey - 14.4) / 0.4 = 42.25\]
III について. それはそう.
I について. 単回帰と重回帰の違いは説明変数がただ一つか, 2つ以上か. 2つの変数の係数を等しいとすることは, その変数の和を取った一つの変数に置き換えるということ. 今の場合それはちょうど単回帰になる.
II について. 決定係数 \(R^2\) (\(\in [0, 1]\)) はモデルのデータへの当てはまり度合いを言う. 大きいほどよく当てはまっている. この問題では R-squared
として出力されている.
さてこの値はモデルを複雑にすればするほど高くなる. そこで公平さのために自由度で調整をする. これが 自由度調整済み決定係数. この問題ではおそらく R-squared Adjusted
というのがそれだろう. 見てみると単回帰の方が大きい. 大きいほうが良いので, 単回帰を選択するべき.
III について. それはそう.