Tue Nov 03 2020

2018年11月25日試験 - 統計2級過去問

引き続きやってく. 多少慣れてきたので簡単に思えることは簡単に書く.

リンク

問題: https://www.toukei-kentei.jp/wp-content/uploads/g2_201811.pdf
- 予備: https://web.archive.org/web/20201101141143/https://www.toukei-kentei.jp/wp-content/uploads/g2_201811.pdf
回答: https://www.toukei-kentei.jp/wp-content/uploads/g2_201811_ans.pdf
- 予備: https://web.archive.org/web/20201101141120/https://www.toukei-kentei.jp/wp-content/uploads/g2_201811_ans.pdf

問1

(1)

各列について和 100.0 になるようにする.

(2)

外れ値が表示されてるので, 最大値が分かる. それが目印になる.

(3)

四分位範囲は四角形の高さ.
先程も言ったように最大値は見れば分かる.
中央値は箱の真ん中にある太い線.

問2

相関係数はちょうど線形の比例の関係しか見れないところある.
バラバラなプロットより直線にある方が絶対値は大きくなる.
「平均して」ならそうだけど, そうでないなら違う.

問3

(1)

入る数値を \(r\) とすると, 変化率とは \(\frac{111.7-r}{r}\) であってこれが 4.98%.

(2)

単に移動平均という場合には注目してる値をウィンドウの真ん中に置いた単純平均. ウィンドウのサイズ \(n\) が今の場合奇数 (\(n=3\)) なので, ちょうど真ん中に自分をおけるが, 奇数の場合はやや注意が必要. 自分を真ん中に \(n+1\) 個の値をとってきて, 代わりに両端の値には 0.5 を掛けて使う.

問4

ラスパイレスとは, 量に関する値を基準の年のもので統一して使って計算するマイクロ平均の比率.

問5

小さな層がある場合に全体からの単純無作為抽出ではそこからは選ばれない確率がそれなりにある. 層化は必ずそういう層からも選ばれる利点がある.

問6

見たまんま二段抽出.

問7

(1)

中学算数 #### (2) 中学算数

問8

(1)

標準正規分布で上側が95%なのは \(u=-1.64\). \(y=0.3+2x+u\) にこれを代入する.

(2)

標準正規分布で上側が5%なのは \(u=1.64\). \(y=0.3+2x+u\) にこれを代入するとちょうど 1 番のグラフが得られる. というか, 得られるグラフが1次関数であることを見抜ければ具体的な数値は何も要らずに答えられる.

問9

(1)

\[P(X=x) = \dbinom{7}{x} \left( \frac{1}{3} \right)^x \left( \frac{2}{3} \right)^{7-x}\] を代入.

(2)

二項分布であって, 期待値が \(7/3 = 2.33\). 一番近いのは \(X=2\).

問10

この形で与えられる標本平均は不偏推定量であり, 一致推定量である.

不偏であることから, その期待値は真の期待値に一致する. ここで選択肢は 1,3,5 に絞られる.

次に一致推定量であることから, \(n\) を大きくするにしたがって真の値に近づく. これはすなわち分散が小さくなるということ. というわけで選択肢の 3, 5 にまで絞られる.

直感的に, 標準偏差がサンプル数にそのまんま反比例するような都合のいいことはなくて, むしろ \(\sqrt{N}\) に反比例するのが常である.

2つの確率変数 \(X,Y\) について \(V(X+Y) = VX + VY + \mathrm{Cov}(X,Y)\) である. ここで Cov は共分散だが, もし2つが独立であるならその値はゼロになる. ここで \(X_i\) は独立であることから, \[V \bar{X} = V(\frac{1}{n} \sum_i X_i) = \frac{1}{n^2} \sum_i VX_i = \frac{\sigma^2}{n}\] を得る.

問11

歪度は左右対称のときにゼロ. 平均が左に寄ってるときに正を取る. 尖度は正規分布のときにゼロ. それより尖ってると正.

(1)

正規分布はともにゼロ.

(2)

確率密度関数 \(f(x)=1/2\) を使って積分すれば良い.

(3)

定義と逆のことを行ってる
裾が長いのが「尖っている」
t分布は自由度が大きくなるにつれて正規分布に近づくのだから, 歪度はゼロに近づくはず

問12

「ほぼ毎日」と答える割合の真の値を \(p\) とする. 今考えてるのはそう答えるか答えないかのベルヌーイ試行. 1338 個のサンプルでそう答える人数 \(X\) を確率変数に置くとこれは二項分布になる.

二項分布は例によって正規分布に近似される.

サンプル数 \(N = 1338\)
期待値 \(\mu\)
- \(Np\)
分散 \(\sigma^2\)
- \(N p (1-p)\)

でもって, 標準正規分布で 95% 信頼区間は \(\pm 1.96\) なので,

\[\begin{align*} & \frac{X - \mu}{\sigma} \in \pm 1.96 \iff & \frac{X/N - p}{\sqrt{p(1-p)/N}} \in \pm 1.96 \iff & X/N \in p \pm \sqrt{p(1-p)/N} 1.96 \end{align*}\]

ここで右辺の \(p\) に尤度比率 0.02 を代入して, \[0.02 \pm 0.0075\] を得る. 一番近いのは選択肢の2番.

問13

\(t\) の値は式の形を覚える. サンプル数の平方根が掛かってるのが正しくて選択肢の 3,4 のどちらかが正解.

\(\nu=19\) の t 分布で両側 5% の点を見れば 2.093.

問14

(1)

各条件のサンプル数のそれぞれ \(-1\).

(2)

棄却する条件は少なくともどれかの組み合わせで分散が違うと判定されること. \(1 - (0.95)^3\).

問15

(1)

サンプル数 \(n=200\), 不良品率 \(r=0.05\) に関する二項分布. 平均は \(nr\). 分散は \(nr(1-r)\).

(2)

もうなんか, 統計検定で二項分布の表が与えられることはなくて, 常に正規分布に近似しておけばよい. 上で計算した平均と分散だけを入れた正規分布だということにしてよい.

\(r=0.05\) のときに不良品の数が \(X > 16\) になる確率がここでいう P-値になる.

(3)

\(r=0.05\) だという話はここでは終わってて, A,B社ともともに不良品率 \(p\) であるという話が始まってることに注意.

各社の不良品数の分布は

A: \(\mathcal N(np; np(1-p))\)
B: \(\mathcal N(np; np(1-p))\)

この差の分布は

\(A-B\): \(\mathcal N(0; 2np(1-p))\)

くらい. しょうがないので \(n=200, p=16/200\) とした. さて, 今この差がちょうど 1 あった. これを両側検定して \(P(|X| > 1)\) を求めれば良い. 特に対立仮説が左右対称なので両側にしている.

問16

(1)

わかんないです. カイ2乗検定が出たら捨てます.

(2)

自由度はサンプル数\(-1\), あとは付表から 1.15 を読み取って棄却しないことが分かる.

問17

(1)

自由度は52であることだけ出力から分かる. サンプル数 \(N\), 次元数 \(p\) から自由度は \(N-p-1\). ここで \(p=2\)（説明変数の個数）なので, \(N=55\).

(2)

Intercept の Std.Error を見れば全然違うことがわかる
Pr とか P-値はそれぞれの係数が 0 に等しいことに関する確率
Adjusted なんとかを読む

(3)

population の係数を見れば分かる
log(gdp) の係数を見れば分かる
\(-1283 + (-0.066) \times 400 + 175.7 \times 10 = 447.6\)

問18

(1)

誤差2乗和のこと. \(3 \sigma_u^2\) を計算するとこの値が出てくる
t値は変わらない
それはそう

(2)

いくら見た目がゼロに近かろうがそれだけで判断したら駄目で, そのためにP-値がある
めちゃくちゃ相関してるから無視しちゃ駄目
これはゼロである確率なので, 大きいほど棄却できない

(3)

\(x,z\) に相関関係がある以上, 係数がめちゃくちゃずれるのはしょうがない
はい
有意でないのだからそうは解釈できない