Tue Dec 29 2020

2018年6月17日試験 - 統計2級過去問

100点中60点で合格（CBT検定の場合）. 問題数は34問. 配点が分かんないから正確なことは言えないんだけど, 問題数で言って7割か8割まで正答できれば安心する. 2割間違えていいので, 7問くらいは間違えても良い.

問1

(1)

総得点の分布はそのままをプロットしたものなので, スケールが40とか50とかになっているIIIしかありえない
標準化得点はこの値を標準化したもので, 平均が0で標準偏差が1になるはずなのでスケールをみたらIしかありえない. II だとしたら標準偏差が大きすぎるから
偏差は残りのII

(2)

平均と標準偏差はそれぞれ 54.45, 11.77 と与えられている. なので平均から二倍以上離れているというのは「31未満または78以上」くらいだと分かる. そのようなチームは名古屋一つだけ.

問2

(1)

I: 大雑把にそう見えるかどうか. 見える
II: 東京都が外れ値なのは確かだし, 相関係数って二乗誤差回帰みたいなもんなので, こういう影響を強く受ける
III: 相関があるという関係を見いだせる

(2)

I: 人口 500 万人くらいのところ見ると一番上に北海道があるのでこれは誤り
III: 人口 500 万人以上だけを見た場合を言ってる. 普通に右肩上がりなので正の相関係数がある

I も III も誤りであることと選択肢から, II は正しいことがすでに言える.

II: 変動係数とは標準偏差を平均値で割った値
- 変動係数の単位は人口関係なくて単に床数
  - 人口あたりに換算すればそれだけ数が減るのはそれはそう

(3)

I: そう
II: 常識を働かせれば疑似相関だし人口に比例するだけの話でしかない
- 人口の影響を取り除いた2つの相関係の図がその残差同士のプロット
- ほとんどが (0, 0) に集中してるのを見ると, 実はこの2つに関係は大してない
III: ふざけてる

問3

(1)

ローレンツ曲線が何か分かんないけど, 累積和のグラフであることは見れば分かる. ここによればローレンツ曲線というのは所得の累積比をグラフにしたものらしい.

さて横軸 20% 時点での値がおよそ 8% くらいなので, スウェーデンかドイツかに絞られる. 表を見るとこの2つの国はほぼほぼ同じような分布をしていてこんなもん問題に出すなバカ検定と思うが, 40% 時点の値が 23% に見えるならスウェーデンが答えで, 21.5% に見えるならドイツが答え. 私には 21.5 に見えた.

(2)

ジニ係数とは, 均等分布線とローレンツ曲線に囲まれた弧みたいなとこの面積の, 下三角形の面積に対する比のこと. これがゼロであるほど「経済格差が少ない」ということになってる.

ここで図示されてるローレンツ曲線は所詮, 多角形なので気合入れれば面積は計算できる. 横軸と縦軸を \([0, 1]\) にスケールさせてその面積は,

\[S = \frac{1}{2} \times 0.2 \times \left( (0 + (0.2-0.084)) + ((0.2-0.084) + (0.4 - 0.215)) + ((0.4 - 0.215) + (0.6 - 0.387)) + ((0.6 - 0.387) + (0.8 - 0.614)) + ( (0.8 - 0.614) + 0) \right) = 0.14\]

下三角の面積はもちろん \(1/2\). ジニ係数とはこれの比なので \(0.28\).

(3)

I. 原理的にはありえるが, 一般にはなさそう
1. ジニ係数は大きいのが不平等であることなので明らかに誤り
1. 確かに平等線より遠いしそれは不平等であることを表す

問4

(1)

基準となる2010年の値を \(x_0\), 今気にしてる2011年の値を \(x\) とすると, 知りたい変化率とは \[\frac{x - x_0}{x_0}.\]

(2)

パーセントによる \(100\) の倍率は無視して雑に書くと, \[100 = 89.5 (1 + r)^5\] であるということ. これを \(r\) について解けばよい.

問5

フィッシャーの三原則をただ覚えるだけ. 反復 (replication), 無作為化 (randomzation), 局所管理 (local control).

問6

性別という層に分けてそれぞれから抽出する方法を行っている. これが層化抽出.

問7

(1)

ちゃんと計算したら \(pq + (1-p)qp\)

(2)

UTU で勝つ確率は \(pq + (1-q)qp\). \(p<q\) を当てはめると直観に反して TUT で戦う方が有利.

問8

\(\def\N{\mathcal N}\) \(\mu = 4000, \sigma=500\) として, 正規分布 \(\N(\mu,\sigma)\) を考える.

(1)

標準化すれば, \(P_{\N(\mu,\sigma)}[\geq 4800] = P_{\N(0,1)}[\geq (4800 - \mu)/\sigma]\). テーブルの \(u=1.6\) のところの確率を読み取れば良い.

(2)

去年と今年の料金は独立に同じ \(\N(\mu,\sigma^2)\) からサンプリングされてきたとして, その差を考えたらよい. つまり2つの同じ正規分布の差がどんな分布になるかを考えたらよい.

一般に2つの独立な確率変数

\(X \sim \N(\mu_1, \sigma_1^2)\)
\(Y \sim \N(\mu_2, \sigma_2^2)\)
実定数 \(a,b\)

について

\[aX + bY \sim \N(a \mu_1 + b \mu_2, a^2 \mu_1^2 + b^2 \mu_2^2)\]

が成り立つ. これを確認するのは結局ガウス積分を考えないといけないので大変そう.

というわけで, \(\N(\mu, \sigma^2)\) どうしの差の分布は \[\N(0, 2 \sigma^2)\] になることが分かる.

この分布で \(800\) 以上を取る確率というのは \(\N(0,1)\) で \(800 / \sqrt{2 \sigma^2}\) 以上を取る確率.

(3)

一昨年の値, 去年の値, 今年の値を \(a,b,c\) とする. これらは同じ確率分布から取ってきてるんだから全く対等. つまり \(P[a<b]\) と \(P[b<a]\) は等確率.

さて今は \(a,b,c\) の大小関係を考えてるが, 小さい順に並べるとそれは \(3!\) 通りあって, 今年の \(c\) が最大であるのはその内の \(2!\) 通り. よって答えは \(2!/3! = 1/3\).

問9

(1)

\(VX = EX^2 - E^2X\) から \(EX^2\) は求まる. 同様に \(EY^2\) も求まる.

\(\def\Cov#1{\mathrm{Cov}[#1]}\) \[\Cov{X,Y} = E( (X-EX) (Y-EY) ) = E(XY) - EX~EY\] という定義だけ覚えておけばこれは普通に計算可能.

(2)

期待値に関しては線形性から普通に

\(EU = 4\)
\(EV = -10\)
\(E(UV) = -41.8\)

が分かって, \(\Cov{U,V} = -41.8 - 4 \times (-10) = -1.8\).

\(\Cov{U,V} = \Cov{3X-2, -2Y-4} = 3 \Cov{X,-2Y-4} = 3 \times (-2) \times \Cov{X,Y}\) というのも成り立つんでそれでぱっと計算するのがたぶん一番正しい.

相関係数は \[r_{U,V} = \frac{\Cov{U,V}}{\sqrt{ VU~VV }}\] で求まるけど, この選択肢の場合は正負だけチェックすればよくて \(\Cov{U,V}\) と同じ符号を持つはずなのでマイナスなものを選べば良い.

問10

標本分布の話をしている.

母集団の分散 \(\sigma\) を使った推定をするときは \[Z = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}\] を使ってこれは正規分布に従う.

不偏分散 \(S\) を使った推定をするときは \[Z = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}\] を考え, これは自由度 \(\nu = n-1\) の t 分布に従う.

(1)

\(\sigma\) が与えられているので正規分布に従う. 考えてる確率は絶対値を見てるので両側95%な点を読めば良く, \(Q(u) = 0.025\) になるのは \(u=1.96\).

また所望の確率は \[\begin{align} P \left[ \| \overline{X} - \mu \| < 0.5 \right] & = P \left[ \| \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \| < \frac{0.5}{\sigma / \sqrt{n}} \right] \\ & = P \left[ \| (\overline{X} - \mu) \sqrt{n} \| < \sqrt{n} / 2 \right] \end{align}\]

\(\sqrt{n}/2=1.96\) くらいになるのを探せばよくてこれはだいたい 16 くらい.

(2)

こちらは \(\nu = n-1 = 19\) 自由度の t 分布を気にしていて, その両側 95% になるのは \(t_\alpha = 2.093\). この数字と \(\sqrt{20}\) という値が出現する式は選択肢中に一つしかないので答えが決定する.

問11

野球をするかどうかのベルヌーイ分布（幾何分布）. 野球をする人口についての分布を取ればその平均と分散は

\(\mu = np\)
\(\sigma^2 = np(1-p)\)
- 覚えろ

で与えられる. そして統計検定では幾何分布のその形は正規分布と近似して扱う.

(1)

正規分布における両側95%を与えるのは \(u=1.96\).

野球人口についての確率は以下の通り.

\[\begin{align} \N(\mu = np, \sigma^2 = np(1-p))[\|x\| < 1.96] & = \N(0,1)[\|x\| < np + 1.96 \sqrt{np(1-p)}] \end{align}\]

さらに今は比率を考えてるので全部を \(n\) で割れば良くて, \[\N(0,1)[\|p = x/n\| < p + 1.96 \sqrt{p(1-p)/n}\]

この \(<\) の右が今求めてるもの.

(2)

まず母比率だがこれは野球人口の和をとって \(N_1+N_2\) で割れば得られる. ここで選択肢の 1,2 のどちらかだとわかる. さて標準誤差は雰囲気でわかって, \(N_1, N_2\) の影響がないはずがないので, 2 と決まる.

問12

一旦捨てます

(1)

(2)

問13

第一種過誤は false positive. \(H_0\) が正しいときに棄却する確率 \(\alpha\). 第二種過誤は false negative, \(H_1\) が正しいときに \(H_0\) を棄却しない確率 \(\beta\). 検出力とは \(1-\beta\) のこと. つまり棄却すべきときに棄却をする確率のこと.

有意水準は \(\alpha\) に関して言っていて, 予め決めた有意水準よりこれが下回っていれば, その結果は有意であると考える.

(1)

\(\alpha = P_{H_0}[X \leq 3] = 0.3\)
\(\beta = P_{H_1}[X > 3] = 0.1\)
検出力は \(1-\beta=0.9\)

(2)

\(\alpha_I = 0.3\), \(\alpha_{II} = 0.2\), \(\alpha_{III} = 0.3\).

\(\beta_I = 0.1\), \(\beta_{II} = 0.3\), \(\beta_{III} = 1.0\),

特に検定IIIの検出力はゼロ.

問14

(1)

慎重に Estimate の係数を掛けて足すと得られる. 慎重に電卓を叩くとよい.

(2)

一旦捨てで...

(3)

I: Pr(>|t|) の値が小さいほど有意. 1% より小さいのは2つ
II: 係数が正なので, 高くなれば高くなる
III: Adjusted R-squared をみるとほぼ 0.58 になってる

問15

(1)

表ではサンプル数 365 点での観測度数が与えられている. ここから季節に関して冬季である確率, 風向きについて北風である確率が尤度推定出来る. この問で求められているのはこれらの確率が独立だと過程すると, 冬季の北が何点になるかを聞いている.

サンプル数 \(n=365\),
冬季の確率 \(p = 120/365\),
北風の確率 \(q = 207 / 365\).

以上について \(npq\) が求める答え.

(2)

各項目（ここでは季節と風向きによる4通り）についての実測度数 \(x\) と期待度数 \(e\) によって, \[\sum_i \frac{(x-e)^2}{e}\] がカイ二乗統計量.

(3)

捨て

問16

捨て

合計6問を捨てた.