Sun Nov 01 2020

引き続き, 統計2級の過去問をやる. ここから過去4つ分の過去問があることが分かった. どうやら公式webサイトでは直近一つの問題しか公開してないみたい.

2019年6月16日試験 - 統計2級過去問

リンク

10/13 12:40-13:14

問1

(1)

下4つの和が19.6であったということ. 引き算して, (イ) は 5.8%.

(2)

上から累積して足していって, 50% ちょうどが含まれるところを探す.

Sum[300万未満] = 27.4
Sum[400万未満] = 33.5
Sum[500万未満] = 39.1
Sum[600万未満] = 44.6
Sum[700万未満] = 49.1
Sum[800万未満] = 53.2

というわけで (H) 700以上 800未満のところに中央値がある.

(3)

ちょうどは計算できないので,

Sum[1200万未満] \(<\) Sum[1309万未満] \(<\) Sum[1400万未満]

であることを使う. すると, 65.7 より大きく 70.3 より小さいことが分かる. 何にせよ四捨五入すれば答えは 70.

問2

2つのデータ \(\{X_i\}\) と \(\{Y_i\}\) について,

標準偏差
- \(\sigma_X^2 = E \left[ (X - EX)^2 \right]\)
- \(\sigma_Y^2 = E \left[ (Y - EY)^2 \right]\)
共分散
- \(\mathrm{Cov}(X,Y) = E \left[ (X-EX) (Y-EY) \right]\)
相関係数
- \(r = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}\)

(1)

相関係数が 0.72 であるということから, 答えは 4 くらい. 1,2 なら係数は負だろう. 3 はゼロくらいに見える. 5 はめちゃくちゃ相関しすぎてる.

(2)

相関係数が共分散を標準偏差で割ったものなので, 逆に共分散は積 \(r \sigma_X \sigma_Y\) で計算できる.

147.6

(3)

変動係数 (Coefficient of Variation; CV) とは標準偏差を平均で割ったもの \[\mathrm{CV} = \frac{\sigma}{EX}\]

単に値を定数倍するとき, 平均も標準偏差も同じだけ定数倍されるのでCVは変化しない. 一方で共分散は, \((X-EX)\) の分だけ定数倍されるので, 全体でもその定数倍だけされる. 答えは「変わらない」「二倍」が正解.

問3

標準得点とは, 確率変数から平均を引いて標準偏差で割った値のこと. 元の分布がどうあれ, 平均がゼロ, 標準偏差が1の分布に写る.

注意としてこの問題では標準偏差とは不偏分散の平方根のことを言うらしい.

(1)

I について. これが標準得点そのものを言っている.

II について. 元の値で一番大きいのはマイアミの22. これが2.5より小さければ正しい. \((22-2.4)/7.0= 2.8\) なので正しくない.

III について. 正しい気がする.

摂氏温度 \(x\), 華氏温度 \(w\) について適当な係数 \(a,b\) で \(w = ax+b\) が成り立っている. \(x\) から得る標準得点は \((x - EX)/\sqrt{VX}\).

一方で \(w\) から得る標準得点は \((w-EW) / \sqrt{VW} = ((ax+b) - (a EX + b)) / (a \sqrt{VX}) = (x-EX)/\sqrt{VX}\). したがって2つは一致する.

以上から I, III が正しい.

(2)

\(\bar{F}\) が今言った \(EW\), \(s_F\) が \(\sqrt{VW}\) のことで, これらはそれぞれ \(a EX + b\), \(a \sqrt{VX}\) である. また \(a = 1.8, b = 32; EX=2.4, \sqrt{VX} = 7.0\).

それぞれ計算すれば, 平均は \(1.8 \times 2.4 + 32 = 36.32\), 標準偏差は \(1.8 \times 7.0 = 12.6\).

問4

偏相関係数. 2つの因子に関するデータ \(X_i, Y_i\) があれば相関係数 \(r_{XY}\) を求めることが出来る. 更にここで3つ目の因子に関するデータ \(Z_i\) があるときに, この因子の影響をちょうど除いた \(X, Y\) の相関係数を求めることが出来て, これを 偏相関係数 という. 次で計算される: \[r_{XY-Z} = \frac{r_{XY} - r_{XZ} r_{YZ}}{\sqrt{1 - r_{XZ}^2} \sqrt{1 - r_{YZ}^2}}\]

この式がどこから来たかはここで書いてある.

(1)

I. それは正しいと思う
1. 線形のことしか扱ってない
1. 意味不明

(2)

I. 相関の高さの話しであって, 高収入ほど～は意味不明
1. いいえ
1. まさにこれが偏相関係数の意味なのでこれだけが正しい

問5

術語覚えゲー.

フィッシャーの三原則. 反復測定誤差には系統誤差と偶然誤差がある. ある実験を同じ条件で二度以上繰り返して実験する. データのばらつきを見ることで, 偶然誤差の大きさが評価できる. 無作為 考慮してる要因以外の要因の影響をなるべく減らすため, 実験の環境を無作為に選ぶ. 系統誤差を偶然誤差ということにすることができる. 局所管理 実験環境, 例えば実施する時間を細かく区切って, 出来るだけ同じ環境で行うことで系統誤差を小さくすることを目的にする.

I. 正しい
1. 同一の実験条件ならいいので複数の被験者でもいい
1. そういうことじゃない

I のみ正しい.

問6

段数を増やすほど数が減るので精度は減る
グループ分けしない
無作為抽出とは関係ない
精度のよしあしではなさそう
これはクラスター抽出の説明そのもの

問7

同時確率はここから足し引きして \[P(A \cap B) = P(A)+P(B) - P(A \cup B) = 0.14\] と分かる. \(P(A \cap B) = P(A) P(B)\) が成り立っているので独立であることが分かる. また背反でもない.

問8

普通に確率の問題 #### (1)

赤がちょうど一回取り出されるとは, 一回目と二回目がそれぞれ, 赤白または白赤であった, と言い換えられる.

\(P(B, X=1) = P(B) P(X=1|B) = \frac{2}{3} (\frac{1}{5} \frac{4}{5} + \frac{4}{5} \frac{1}{5}) = 16/75\)

(2)

\(X>2\) になることはなくて, \(X=0\) の場合は期待値に入らないので, \(X=1,2\) のケースを計算すればよい.

\(P(A,X=1) = \frac{1}{3} ( \frac{2}{5} \frac{3}{5} + \frac{3}{5} \frac{2}{5}) = 12/75\),
\(P(B,X=1) = 16/75\),
\(P(A,X=2) = \frac{1}{3} ( \frac{2}{5} )^2 = 4/75\),
\(P(B,X=2) = \frac{2}{3} ( \frac{1}{5} )^2 = 2/75\).

というわけで \(P(X=1) = P(A,X=1)+P(B,X=1) = 28/75\), \(P(X=2) = P(A,X=2)+P(B,X=2) = 6/75\). \(EX = P(X=1) \times 1 + P(X=2) \times 2 = 40/75 = 8/15\).

問9

確率変数 X,Y および実定数 a,b について, 期待値, 分散, 共分散は次を満たす.

\(\def\Cov{\mathrm{Cov}}\)

期待値の線形性
- \(E(aX+b) = a~EX + b\)
- \(E(X + Y) = EX + EY\)
分散の定義
- \(VX := E(X-EX) = EX^2 - (EX)^2\)
共分散の定義
- \(\Cov(X,Y) := E((X-EX)(Y-EY)) = E(XY) - EX~EY\)
分散の線形性
- \(V(aX+b) = E(aX+b)^2 - (E(aX+b))^2 = a^2~VX\)
- \(V(X+Y) = E(X^2+2XY+Y^2) - (EX+EY)^2 = VX+VY+ 2\Cov(X,Y)\)
共分散の双線形性
- \(\Cov(aX+b, Y) = a \Cov(X,Y)\)
- \(\Cov(X, aX+b) = a \Cov(X,Y)\)

この中で最低限しっておくべきは 1,2,3 だけ. 2,3 の定義は := の両辺が直接定義になることが多いが, そのさらに右の = まで覚えておくと便利. もっとも, この = も, 4 以降も 1,2,3 から全て導ける. 結局どの定義も期待値 \(E\) をベースにしているだけなので, 全部 \(E\) で表して線形性を使ってバラせば, 全ての計算が可能になる.

(1)

定義から \(\Cov(X,Y) = E(XY) - EX ~ EY = 4 - 1 \times 2 = 2\) がすぐ分かる. 次に \(VZ, VW\) について考えると,

\(VZ = V(X+Y) = VX + VY + 2 \Cov(X,Y) = 24\)
\(VW = V(2X-Y) = V(2X) + V(-Y) + 2\Cov(2X, -Y) = 4 VX + VY - 4 \Cov(X,Y) = 24\)
- ここで \(2X, -Y\) を確率変数だと思って展開していることに注意

そして \(\Cov\) の値は 2 だとわかってるのでこれを代入して,

\(VX + VY = 20\)
\(4 VX + VY = 32\)

という連立方程式を得る. これで \(VX=4, VY=16\) とわかった. 最後に \(VX = EX^2 - (EX)^2\) なので, \(EX^2 = VX + (EX)^2 = 4 + 1^2=5\). 選択肢はこれで 3 番に絞られた.

(2)

相関係数とは \[r = \frac{\Cov(X,Y)}{\sqrt{VX ~ VY}}\] だと決まってるんで, \(\frac{2}{\sqrt{4 \times 16}} = 1/4\).

問10

在宅してるかどうかについてのベルヌーイ試行であって, 初めて成功するまでの回数に関する分布なのでこれは成功確率 \(p=0.2\) の幾何分布のこと.

(1)

最初の二回失敗して次に成功する確率なので, \((1-p)^2 p^1 = 0.128\). 選択肢はこれを適当に四捨五入したもの.

(2)

期待値は普通に考えて \(1/p=5\). そしてこれが幾何分布であることを考えれば（少なくとも負の値を取らないことから正規分布のはずがない！）答えは2番.

参考までに \(VX=(1-p)/p^2\). 気合い入れて導出は出来るけどまあまあ大変なので覚えるか諦めよう.

問11

標準正規分布に治すと, \[\mathcal N[2;9](-1, 4) = \mathcal N[0;9](-3,2) = \mathcal N[0;1](-1,2/3)\]

付表1を使って上側確率だけ分かるので, \(\mathcal N(2/3,\infty) = 0.2546\) と \(\mathcal N(1,\infty) = \mathcal N(-\infty, -1) = 0.1587\) を使って, \[\mathcal N[0;1](-1,2/3) = 1-0.2546 - 0.1587 = 0.5868\] を得る.

問12

サンプル数 \(N=9\) に関して, 統計量 \[t = \frac{\bar{X} - \mu}{S / \sqrt{N}}\] を考えると, これは自由度 \(\nu = N-1=8\) のt分布に従う.

今求めたい確率は, \[\begin{align*} P(\bar{X} \geq \mu + 0.62 S) & = P(\frac{\bar{X} - \mu}{S} \geq 0.62) \\ & = P(\frac{\bar{X} - \mu}{S / 3} \geq 1.86) \\ & = P(t \geq 1.86) \\ \end{align*}\]

付表2から \((\nu, t) = (8, 1.86)\) になる \(\alpha\) を読み取ると, ちょうど \(\alpha=0.05\).

問13

サンプル数4つの内2回抽出するだけなので, 4x4 の表を書けばいいだけ.

\(\bar{X}\)	2	4	6	8
2	2	3	4	5
4	3	4	5	6
6	4	5	6	7
8	5	6	7	8

(1)

4x4 の内, その値を再現する組み合わせが何通りあるか数えるだけ, \(p_3 = 2/16, p_6=3/16\).

(2)

上の表見れば明らかで, ともに \(5\).

(3)

期待値の線形性から, \(EX=(EX_1+EX_2)/2=5\) なのは明らか
いや出来る
いいえ
どういうこと？
Yes. これを不偏推定量という.

問14

再捕獲のときに目印がついてる個数を確率変数 \(X\) ということにして, \(P(X)\) を考える.

ここで, \(N\) が十分大きいので, \(N\) も \(N-300\) も同じ \(N\) で近似できることにすると, ランダムに捕まえた魚に目印がついてる確率は定数 \[p = 300/N\] 目印がついてない確率は, \[1-p\] であると出来る. すると \(P(X)\) は二項分布で \[P(X=x; p, m=200) = \dbinom{200}{x} p^x (1-p)^{200-x}\] また, 今考えている目印のついてる魚の比率というのはまさにこの \(p\) であることにも注意.

さらに二項分布は \(m\) が大きいとき正規分布に近似できる. 二項分布 \(P(X;p,m)\) の期待値は \(EX = mp\), 分散は \(VX=mp(1-p)\) で, \(\mathcal N[\mu = mp; \sigma^2 = mp(1-p)]\) に近似される. というわけで, \[Z = \frac{X - mp}{\sqrt{mp(1-p)}} \sim \mathcal N[0;1]\] ここで式を変形すると, \[Z = \frac{X/m - p}{\sqrt{p(1-p)/m}}\] で, ここで \(X/m\) 実際に知りたい比率の確率変数になっている. また,

\(p = 20/200 = 0.1\)
\(\sqrt{p(1-p)/m} = \sqrt{0.1 \times 0.9 / 200} = 0.3 / 14.142 = 0.02121\)

さて \(Z \sim \mathcal N\) の 95% 信頼区間は, 付表1で \(Q(u)=0.025\) であるところを探すことで, \((-1.96, 1.96)\) が信頼区間であると分かる.

\[\begin{align*} & Z \in \pm 1.96 \\ \iff & X/m-p \in 0.02121 \times \pm 1.96 = \pm 0.0416 \\ \iff & X/m \in p \pm 0.0416 \\ \end{align*}\]

というわけで選択肢の4番.

問15

(1)

母集団が正規分布であることに注意して, 変化率を確率変数 \(X\) として, \[Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{24}}\] が自由度 \(\nu=23\) の t 分布に従う.

付表2の \((\nu, \alpha) = (23, 0.025)\) のところを読んで, 95% 信頼区間は \[\pm 2.069\] だとわかる.

\[\begin{align*} Z \in \pm 2.069 \\ \iff \bar{X} - \mu \in (\sigma/\sqrt{24}) \times \pm 2.069 \\ \iff \bar{X} - \mu \in \pm 3.682 \iff \mu \in \bar{X} \pm 3.682 \end{align*}\]

というわけで3番.

(2)

対立仮説が非対称なので片側検定かな.

\(\nu=23\) では

有意水準に対する信頼区間
- 10%: \(<1.319\)
- 5%: \(<1.714\)
- 2.5%: \(<2.069\)
- 1%: \(<2.500\)

\(\mu=0\) を代入すると, \[\frac{\bar{X}}{\sigma/\sqrt{24}} < \cdot\] この左辺は 1.8146. したがって 5% では棄却されて 2.5% では棄却されない.

問16

帰無仮説を棄却することに関して

第一種過誤 (false positive)
- 誤って帰無仮説を棄却すること
- 実際には 帰無仮説が正しい
第二種過誤 (false negative)
- 誤って帰無仮説を採用すること
- 実際には 対立仮説が正しい

(1)

\(\alpha\) は \(\theta=0\) のときに \(x \geq 0.8\) である確率. これは \(\mathcal N(0;1)\) で \(u=0.8\) のときの上側確率 \(Q(u)\) で, 付表1から \(0.2119\).

逆に \(\beta\) は \(\theta=1\) のときに \(x \leq 0.8\) である確率で, 平行移動して左右反転したら \(\mathcal N(0;1)\) で \(u=0.2\) の上側確率 \(0.4207\).

(2)

一般に \(\alpha, \beta\) はトレードオフにある. したがって \(1-\alpha,\beta\) はだいたい正比例みたいな関係にある. 選択肢は 1 か 2 くらい.

1 の曲がり具合が大体それっぽい. \(\alpha + \beta\) の最小化が真ん中辺りで出来そうな形をしてるので.

(3)

普通真ん中あたりに極値が1つあるので 2 番.

問17

(1)

高卒であることは \(C=U=G=0\) で表現されているので問題ない.
大卒は \(\beta_1 + \beta_3\) で院卒は \(\beta_1 + \beta_4\) で与えられる. なので差分は \(\beta_4 - \beta_3\) で与えられて正しそう
サンプル数 \(n\), 次元数 \(p\) に対して, 係数に関する検定は自由度 \((p,n-p-1)\) の F 分布で求められる

2 のみ正しい.

(2)

そういうことになった
いいえ
そんなことはなさそうだが

(3)

モデル選択は調整済みの決定係数が大きいものを選ぶべき. というわけで誤り
それはそう
それもそう

問18

(1)

どの Pr も5%未満なのでどれも有意.

(2)

あんまわからん
「ゼロに近いから説明力が低い」ならそうだが, マイナスかどうかは関係ない
マイナスなのでそう
定数項は含まない
だから調整済みだってば