月報 2020/10

Thu Oct 01 2020 文鳥を買った

09/29 に電話があって、ヒナを入荷したから見に来てと言われた。 早く決断しないとペットショップとしては他の客にでもさっさと売りたいので、その日の夕方に行って、そのまま連れて帰った。

気温について

ヒナの状態では、 理想は28度から30度、弱っているときは更に温めて30度から33度に保つのが良いらしい。 こういうのは書いてるところによって微妙にまちまちで、一番乱暴なのは凍死しなければ20度超えてりゃいいなんて書いてるところまであった。 さすがにそれは良くないと思うので、出来るだけ29度から30度の間をキープして、31度くらいまでは許容している。

初日は私の準備不足で、料理に使う温度計をケージの中に入れて数時間ごとに気温を測っていた。 20時から朝10時までを就寝時間ということにしようとしているのだが、寝ている間なんかが一番不安で (一般に寝てる間は体温が下がるので)、 起きないようにこっそりかぶせてる布を取り外してケージの中に温度計を突っ込むということを3時間おきにやっていた。 自然と三時間ごとに目が冷めてしまうのだった。

というわけで慌ててこれを買った。

一緒にリモコンハブも買ったけど、もしかしたらこれは不要だったかもしれない。 単に今現在の温湿度をスマホで確認するだけなら。 それからAmazonで買ったけど、(特に今の時期)配達が遅いので、ヨドバシエクストリームで注文すればよかった。 それでも次の日の夕方には届いたので、セットアップした。

ケージの中に温湿度計を磁石でくっつける。 単4電池で動いていて、コード類は無い。

こんな風にグラフにして見ることも出来る。

これと一緒にリモコンハブを買った。これでエアコンの操作が出来て、測った温度が低かったら暖房を入れるということが出来る。 一応そうしてるけど、それでケージが28度まであたたまるより先に人間が起きると思う(暑くて)。 まあ、それはそれでいいかと運用してる。 今の所この仕組みはまだ働いていない(安定した温度を保てているので)。

体重について

朝起きて、胃が空な状態で測る。 0.1g 単位で量れる料理用の量りを使っている。 これは別に、計測値をスマホに送信するなどといった高級な機能はないので、手打ちしている。 ただログをとるだけのサーバを用意していて、 s.cympfh.cc/bun/taiju ここで管理している。

様子

Sat Oct 03 2020 文鳥の飼育環境

温度の自動調整

家に元々Kasaのスマートコンセントが転がってた. スマホからオンオフが出来るコンセントとして使えて, 安全装置くらいに使ってた. いや, あんまし使ってなかった. ボタンがあって手動でもオンオフが出来るので, スイッチが無くて電源につなぐと即座に動いてしまうような電子機器に擬似的にスイッチを付け加えるようなことにも時々使ってた. そういう意味でこれは普通に便利. ところでこれはIFTTTにも対応している.

前回の記事にも書いたように SwitchBot の温湿度計を買った. 温度の監視に普通に使っているのと, 一応エアコンと連携している. エアコンを操作するのもSwitchBotのリモコンだったけど, IFTTT経由をすればさっきのスマートコンセントと連携させれるのに気づいたので, これをやった.

前回も述べたように基本的には28度から30度の間にあるようにしたい. それから, あんまり温度が上下しまくるのも良くないだろうから本当は出来るだけ一定にしたい. また全てタイムラグがある. 寒くなったからヒーターを付けたとしても即座に温まるわけじゃない. 一応今は,

ということで運用してる. 実は特段調整しなくても今まである程度一定の温度をキープしてたので, その範囲が大体収まる程度の範囲を指定してみた. 使いながら適宜, 更に調整してこうと思う.

餌の時間の管理

餌を上げるべき頻度というのも分からない. 基本的には一日4回を3時間おきということにしてるが, あんまり昨日は一昨日と比較して体重が0.1gしか増えてないのが怖くて5回あげた. ともかく, 昨日は何時に何回やったかということを管理しておきたい. 紙に書くのでもいいけど, やっぱりこれもログに残してある.

s.cympfh.cc/bun/esa

ログを送信する操作は初めはCLIでやってたけど, こんなのすぐに忘れるので, iPadの「ショートカット」というのを使って, Siri経由でコマンドを叩けるようにした. 餌の準備をしてるときに発動させて記録することにした.

こんなグラフを出力する. グラフにする必要も本当はない気もするけど.

追記: IFTTTが信用できない(かもしれない)

IFTTT単体が悪いのか, 温度計がIFTTTと連携する部分が悪いのか, 上手く機能してないのか, 私の想像以上にタイムラグがあるのか何なのか分からない. まずこの「何度以上あるときこれを実行する」というトリガーは, ステートレスに今の状態を見るのではなくて, 状態変化を見て, 何度以上を超えた瞬間に一度だけ実行されるみたい. それが便利なときもあるかもしれないが, もしその瞬間にIFTTTのサーバが死んだら終わりだな.

今経験したのは, 確かに設定した温度を超えたときにヒーターをオフにするというトリガーは働いたのだが, そのまま温度が下がり, 設定した温度を下回ってもヒーターが再びオンにならないでそのまま下がり続けていた.

今はもうずっと家にいて様子を見てるので何ということもないけど, 仮にこれが冬場であって, 半日以上家を空けて, 温度管理をIFTTT任せにしてたとしたら, 凍え死んでいたことになる. それよりはIFTTT連携を切ってヒーターつけっぱなしのほうがいい. 鳥は適宜自分でヒーターに近づいたり遠ざかったりして温度調整はしてくれるので, 上手くヒーターを設置してケージやかごの中で温度のムラを作っておくと良い.

Sun Oct 11 2020 文鳥日記

年齢について

厳密に生まれた日を把握できていないので, 今が生後何日なのかが分からず, 物の指南書と照らし合わせられないのが辛い. それでは困るので, 勝手に仕入れた時点を生後2週間ということにして, 誕生日を 2020/09/15 だということにしている. 何しろ生まれたてが一番成長が早いのでド素人に見積もることは難しいが, 世の中の生後二週間の文鳥の写真と照らし合わせて, 大体こんなんだったなということにした.

餌のやる回数について

ペットショップからは2~3時間おきにとだけ言われ, 回数で指示されたりはしなかった. ヒナが餌を欲しがるのも見て, 結局大体一日に4回あげていた. 欲しがれば寝る直前にもあげて, 一日5回になることもあった. さて昨日ほどから一回に食べる量が減った. 指南書によれば生後1ヶ月くらいからは一日3回, 2回と餌をやる回数を減らしてくらしい. 明日からは一日3回を目安にしようと思う.

温度について

昨日までは30度ぴったりくらいを目指していたが, 羽が生え揃ったら28度程度がいいらしい. 羽はもう, 10/6 か 10/7 には大体生え揃っていた. 頭の毛がキレイに揃ったのが 10/7 か 10/8 くらい. その頃には温度を落としても良かったかもしれない. 今日一日は 29 度台になるように調整した. 様子を見てここからさらに1度下げるつもり.

飛ぶ練習について

10/9 くらいから, 生え揃った羽をバタバタさせることが多く見られた. バタバタさせたところでまだまだ飛べない. 今朝から, 脚でジャンプしながらバタバタさせることを覚えた. 虫を入れるようなプラスチックケースで飼ってるのだが, ついさっき, 蓋を空けた状態でいると, ジャンプとバタバタとで, 底からフチまで登って来れるのを見た. 来週には飛べるようになるかもしれない.

体重の推移

朝一番にケージの掃除のタイミングで体重を量っている.

Tue Oct 13 2020 2019年11月24日試験 - 統計2級過去問

統計検定2級の勉強をする. 参考書を持ってないのでひたすら過去問を解いてみる.

このリンクは次の試験が始まると消されてしまう. ところで こんなの がある. 正解はこれの一番最後のページにある.

問1

データ点を数直線上 \(\mathbb R\) に載せる. 点の数が四等分になるように重ならない4区間に数直線を分割すると, 3つの境値が手に入る. これを小さいものから 第一四分位数 (first quartile, \(Q_1\) ) , 中央値 (second quartile, \(Q_2\) ) , 第三四分位数 (third quartile, \(Q_3\) ) という. さらに第3四分位数と第1の四分位数との差を 四分位範囲 という.

(1)

与えられた箱ひげ図によれば, 東京は \(Q_1=6, Q_2=8, Q_3=9.8\) くらい. したがって, \([Q_1,Q_2], [Q_2,Q_3]\) に入ってる点数が同じ. 一方でこの階級に照らし合わせると, \([Q_1,Q_2)\) はあるけど, \([Q_2,Q_3]\) というのがなくて, 近いのは \([Q_2, 10)\) . したがって, 6~8 の度数より, 8~10 の度数のが多いはず. 答えは A,C,D のどれか.

それと, 外れ値を見ると, 次の3つのことが言える。

  1. 3.8くらい未満の点はない
  2. 13.8 くらい以上 16.2 未満の点はない
  3. 16.2 以上についてはちょうど2つの点がある
    • だいたい 17 くらいと, 17.8 くらい

この 2 と 3 の条件だけから A であることが分かる.

(2)

  1. 箱ひげ図はデータ全体の最小最大を必ずしも表現しないので, 範囲は分からない.
  2. 四分位範囲とはこの図で言うところの四角形の高さのこと. 東京が一番小さそう.
  3. 第一四分位数とは四角形の下辺のこと. 確かに福岡が一番高い.
  4. 中央地は四角形真ん中にある太い線のこと. これが一番低いのは名古屋で高いのが福岡.
  5. 最大値は表現されていないので必ずしも分からない.

問2

(1)

  1. いいえ
  2. いいえ
  3. 1990/2015年の図で, 都道府県の対応は書かれてないので分からない
  4. x=y の線を引くとだいぶ左上に来ていて, ただしそう
  5. いいえ

(2)

具体的な数字が与えられてないので大体で考える. x=y の上にのってれば 1. 1990年はだいぶ載っていそう. 選択肢を見ると 0.38 か 0.71 かだが, こんくらいのってれば 0.71 はあるだろう. 答えは 4 または 5 に絞れる. とすると 2015 年の相関係数は 0.4 または 0.74. 2015年はこれもある程度は相関してるが, y切片がだいぶずれていて, 1990年よりは低いはず. したがって 0.71 より小さくあるべきなので 0.4 だとわかる. 答えは 4.

(3)

外れ値を見る. 18%以上は1点. 10%未満は2点. とすると答えは1なんだけど, ちょうど10%くらいの点もあって, もしかしたら3が答えかも. 1と3を区別するために10~12の点を数える. いっぱいありそう. というわけで答えは3だった.

問3

賃金指数が何かは問題文に書いてある. 何か分からんがそういう数字だと思うことにする. 変化率は大体そのまんま.

(1)

H30/1 の賃金指数が \(X_0\) , H31/1 の賃金指数が \(X_1\) だとする. この変化率が \(r = -0.97\) であるとは,

\[r = \frac{X_1 - X_0}{X_0}\]

ということ. こういう状況のときに, H30/12 の賃金指数 \(Y\) に対して,

\[r' = \frac{X_1 - Y}{Y}\]

を求めよという問題.

面倒なので % に関する 100 で割ったり掛けたりは無視する.

一式目を \(X_1\) について解けば

\[X_1 = X_0 r + X_0\]

これを二式目に代入して,

\[r' = \frac{X_0 r + X_0 - Y}{Y} = \frac{X_0 (1+r)}{Y} - 1\]

ここで \(r\) がマイナスの値であることには注意.

この形式をしているのは, 1と3だけど分母が \(Y=104.1\) なのに注意すれば 1 が答え.

(2)

平均変化率とは何かが問題に書いてある. 各々前月からの変化率を考えていることに注意.

ところで, ここで与えられる数字は 102.6, 105.6 なので, これ以外の値が突然出てきてる答えは除外していいに決まってる. それから今考えてるのは複利なので, 4 に決まってるな.

問4

術語の問題.

というわけで,

答えは2.

問5

時系列データ \(X = \{x_t\}\) について, ラグ \(d\) として, \(X^d = \{(x_d, x_{t+d}) \}\) という自己相関データを作る. \(d=1,2,\ldots\) に対して \(X^d\) の中での相関係数を棒グラフで図示したものを コレログラム という.

これは時系列データが周期を持つかを調べることが出来る. \(X\) が周期 \(\ell\) を持っていた場合, コレログラフは \(d=0, \ell, 2\ell, 3\ell, \ldots\) で極端に高い値を取るはず. ( \(d=0\) のときは自明に相関係数 \(1\) を取る.)

さて問5の初めの時系列データを見ると, 明らかに周期性を持っていそうで, その周期はちょうど1年くらい. コレログラムは 1,2,3 のときに高くてその逆位相 (0.5, 1.5, 2.5) のときに最低になってるはず.

選択肢だが, 横軸の単位がないがたぶん, 月だろう. 12,24,36 で高くて, 6,18,30 で低いのは 2 だけ.

問6

術語覚えゲーム.

さて選択肢.

答えは2.

問7

単に標準誤差 (Standard Error of the Mean; SEM) という場合, 次のようなもの.

\(n\) 点をサンプリングしてきて, 標準偏差が \(\sigma\) のとき,

\[\mathrm{SEM} = \frac{\sigma}{\sqrt{n}}\]

したがって今の場合, \(\hat{\sigma} = 4.0\) に注意して, 0.4 が答え.

問8

(1)

同時確率. \(20\% \times 70\%\) が答え.

(2)

条件付き確率.

\(\def\gokaku{\mathrm{合格}}\def\jukou{\mathrm{受講}}\) 知りたいのは \(P(\jukou \mid \gokaku)\) . ベイズすれば,

\[P(\jukou \mid \gokaku) = P(\gokaku, \jukou) / P(\gokaku)\]

ただし \(P(\gokaku) = P(\gokaku, \jukou) + P(\gokaku, \lnot\jukou)\) (周辺化)

以上から,

\[\begin{align*} P(\jukou \mid \gokaku) & = 1 / \left( 1 + \frac{P(\gokaku, \lnot\jukou) }{ P(\gokaku, \jukou) } \right. \\ & = 1 / \left(1 + \frac{0.8 \times 0.3 }{ 0.2 \times 0.7 } \right) \\ & = 1 / \left(1 + \frac{0.8 \times 0.3 }{ 0.2 \times 0.7 } \right) \\ & = 1 / (1 + \frac{12}{7}) \\ & = \frac{7}{19} \\ & = 0.368421 \\ \end{align*}\]

答えは 0.37.

問9

(1)

\(f\) を全体で積分すると 1 になってるはず. \(f\) の様子を考えればよくて, 見たところ直線になってるようなので \(f(0)\) と \(f(20)\) を直線で繋げばいい. \(f(0) = a\) , \(f(20) = 0\) . これを積分するとは三角形の面積を求めることで,

\[\int_X f(x) dx = a \times 20 / 2 = 10a\]

これが \(1\) なので, \(a=1/10\) .

(2)

期待値は

\[\int_X x f(x) dx = \int dx a(x-x^2/20) = \left[ a(x^2/2 - x^3/60) + C \right] = 20/3\]

三角形なのでだいたい重点が期待値になるに決まってて, それで考えても解ける.

(3)

使用料金に関する次の確率は密度関数の積分から計算出来て (あるいは三角形の面積から),

使用料金の期待値は,

\[1000 \times P(0<x<10) + 1120 \times P(10<x<15) + 1280 \times P(15<x<20)\]

ぱっとみて比重が \(P(0<x<10)\) なので大体1000くらいでこれより大きいくらいの値. 1250 だとでかすぎるので 1040 が答えだろう.

問10

累積分布関数のことを分布関数と呼んでそう.

(1)

選択肢を見ると, \(F_X(x=0)\) の値だけ調べれば良さそう.

\[F_X(0) = P[X \leq 0] = P[X=0] = P[Z>100] = 1 - P[Z \leq 100] = 0.04\]

また \(F_Z(0) = P[X \leq 0] = 0\) 以上に合致する答えは 3.

(2)

下側95%点が \(x\) であるとはつまり,

\[F_X(x) = 0.95\]

であること. (1) の解答より, \(F_Z(x) = F_X(x) - 0.04 = 0.91\) . よって \(x=5\) .

(3)

\(X\) の密度関数を \(f_X\) とも書くことにすれば, \(X\) の期待値は \(\int x f_X(x) dx\) . これを \(F_Z, f_Z\) で表現すればいい.

最後の式の両辺を微分すれば, \(f_Z = f_X\) . というわけで \(X\) の期待値は

\[\int z f_Z(z) dz\]

問11

歪度と尖度

データ \(\{x_i\}\) の歪度(わいど)とは

\[\frac{n}{(n-1)(n-2)} \sum_i \left( \frac{x_i - \bar{x}}{\sigma} \right)^3\]

ヒストグラムをかいたとき, 完全に左右対称だと歪度はゼロで, 平均が左に寄ってるとき正の値, 右に寄ってるとき負の値をとる.

さて選択肢.

というわけで全部誤り.

問12

真の値 \(\theta\) に対して, 推定量 \(\theta'\) が不偏であるとは,

\[\mathbb E[\theta'] = \theta\]

であること.

一方で, サンプル数 \(n\) のときに \(\theta^n\) を推定する場合に, これが一致推定量であるとは,

\[\lim_{n \to \infty} P[ \| \theta^n - \theta \| < \epsilon ] = 1\]

であること.

平均的に正しければ不偏. サンプル数を十分大きくすると真に正しくなるのが一致推定量.

平均の推定. 普通にサンプルの全部の平均を取る標本平均は一致かつ不偏.

分散の推定. 普通の標本分散は一致ではあるが, 不偏でない. \(n\) で割る代わりに \(n-1\) で割ったものは一致かつ不偏になる ( \(\frac{1}{n-1} (x_i - \bar{x})^2\) ).

さてこの問題だが, \(\hat{\mu_1}\) はその平均はつまり \(X_i\) の平均であり, これは真の平均なので, 不偏ではある. しかし有限個の平均をとってるだけなので, サンプル数を増やしても一致はしない. \(\hat{\mu_2}\) は普通の標本平均なので, 一致かつ不偏.

というわけで, I, III, IV が正しい.

問13

標準正規分布 \(\mathcal N(0,1)\) の95%信頼区間を調べる. 付表の初めに具体的な値の表があるのでこれを使う. 95%信頼区間とは中央から左右対称にとってきて確率が95%の区間のことを言う. すなわち \(Q(u) = 2.5\%\) な点を探せばよくて, \(u=1.96\) (ぴったりな点が用意されている!). \([-1.96, 1.96]\) が95%信頼区間である.

今考えている100点サンプルによる分布は正規分布であるとしているので, \(\mathcal N(0,1)\) を期待値の分だけ横に平行移動して, 横方向に拡大または縮小したものだ. 期待値は明らかに 0.54 と分かっているので, 横方向の拡大率を調べればいい.

実は, 分布を標準化するには,

\[x \mapsto \frac{x - \mu}{\sigma / \sqrt{n}}\]

とするとよい. \(\mu= 0.54\) . そしてこの分母はさっきでてきた SEM のことである.

今考えているのはAに投票するかしないかの二項分布で, これを正規分布だと思うことにしている. これの分散は, \(V= E[X^2] - E[X]^2 = 1/2-(1/2)^2=1/4\) . したがって \(\sigma = 1/2\) . 今サンプル数は \(n=100\) . これらを代入すれば, SEM は \(1/20\) .

このサンプルが作る分布は標準正規分布を平行移動して 1/20 倍に縮小したもの.

信頼区間も \(1.96 / 20 = 0.098\) から, \([-0.098, 0.098]\) だと分かる.

答えは5.

問14

(1)

まず中央値を探す. 低い階級の度数から順に累積して足していくことで,

したがって, 中央値は 400万以上 500万未満のところにあることが分かった. 「中央値の半分」というのは 200万以上 250万未満のことである. 「中央値の半分に満たない」とは「200万未満」または「250万未満」のこと. したがって, 19.6% 以上 33.3% 以下が正解.

(2)

さっきも登場したこの \(Z\) が何かということ, これは \(n \to \infty\) の極限を取ると \(\mathcal N(0,1)\) になるというもの. したがって正解は3.

選択肢2はほとんど正しいが, 母集団は正規分布でないといけないので誤り.

問15

(1)

事前分布としては, 支持する/しないが当確率だとしておけばいい. これを確率変数 \(X=0,1\) に割り当てておくと, \(EX=1/2, VX=1/4\) . サンプル数 \(n\) として, \(X\) の標準化標本統計量 \(Z\) は

\[Z_i = \frac{X_i - 1/2}{\sqrt{VX / n}}\]

さっきも見たように標準正規分布で95%信頼区間は \([-1.96, 1.96]\) . これを 6% 未満, つまり \([-0.03, 0.03]\) にしたいということは, \(0.03/1.96 = 0.015306\) 倍にしたいということ. \(\sqrt{VX/n} = 0.015306\) 未満程度になればいい.

両辺の2乗を取っておいて \(VX/n = 0.00023427\) 未満程度としておく.

\(VX=1/2\) と \(n\) として選択肢の数字を代入してみれば,

というわけで1100人は必要みたい.

(2)

分散が変わる. \(EX=0.8\) であるといっているので \(VX = E(X^2) - (EX)^2 = 0.8 - 0.8 \times 0.8 = 0.16\) .

700人でいいみたい.

問16

(1)

正規分布 \(\mathcal N(\mu, \sigma^2)\) に従う \(n\) 点データ \(\{X_i\}\) の標本平均 \(\bar{X}\) , 不偏分散 ( \((n-1)\) で割るやつ) を \(S^2\) とする. このとき

\[t = \frac{\bar{X} - \mu}{S / \sqrt{n}}\]

これは自由度 \(n-1\) の t 分布に従う. t分布は \(n \to \infty\) のとき, 標準正規分布と一致する.

答えは自由度 \(n-1\) の t 分布

(2)

仮説検定

今の場合は体重の変化なしとするのが帰無仮説で, 体重の減少があったとするのが対立仮説. それぞれは \(\mu = 0\) , \(\mu > 0\) と表される.

(3)

母集団が正規分布に従うことにしているので, t 検定をする. \(\mu=0\) に関する \(t\) 値は,

\[t = \frac{\bar{X} - \mu}{\sqrt{S^2 / n}} = \frac{0.5 - 0}{1.5 / \sqrt{16}} = 4/3 = 1.333\]

今からしたいのが 両側検定なのか片側検定なのか によって見る点 \(t_\alpha(\nu)\) は違う. 対立仮説が左右対称(イコールかノットイコールか)なら両側、 左右非対称(大小比較)であれば片側をする. 今の場合, 一方は一方より大きいという左右非対称なことを確かめたいので片側検定.

片側での5%有意な点というのはつまり上側 5% の点を見ればよくて, また自由度 \(\nu\) は \(n-1=15\) に注意して \(t_{0.05}(15) = 1.753\) であることが付表2から読み取れる.

棄却するかの判定はこの点より左にあるか右にあるかどうかだけを見れば良くて, 今の場合 \(t < 1.753\) なので棄却はされず, 「効果があるとは言えない」が結論になる.

「効果がない」ではなくて「効果があるとは言えない」という結論づけであることに注意.

問17

3群以上のデータについて平均の差を検討する手法として分散分析がある. 次のように行う.

\(N\) 点データ \(\{X_i\}\) が \(K\) 個のグループに分割されているとする:

\[\{ X_i \}_N = \{ X_i^1 \}_{N_1} \cup \{ X_i^2 \}_{N_2} \cup \ldots \cup \{ X_i^K \}_{N_K}\]

ここで群はある要因によって分割されているとする. この問題なら「何月」というのが要因で, データをこれによって分割している.

平均を計算する.

次に不偏分散を計算する. これは次のように順序立てて計算することになっているらしい.

  1. 平方和の計算
    • 全体の平方和: \(G_0 = \sum_i^N (X_i - \bar{X})^2\)
      • データ全体で分散を計算する
    • 要因の平方和: \(G_1 = \sum_k^K N_k (\bar{X^k} - \bar{X})^2\)
      • 二種類の平均同士で比較する
    • 残差: \(G_2 = G_0 - G_1 = \sum_k^K \sum_i^{N_k} (X_k^k - \bar{X^k})^2\)
      • その要因(群)の中での分散を計算するもの
      • \(G_0, G_1\) の差であること, 一番右の式の形, 両方覚えておいたほうがいい
  2. 自由度
    • 全体の自由度: \(\nu_0 = N-1\)
    • 要因の自由度: \(\nu_1 = K - 1\)
    • 残差の自由度: \(\nu_2 = \nu - \nu_1 = (N-1) - (K-1) = N - K\)
  3. 平均平方(平方和を自由度で割る)
    • 要因: \(V_1 = \frac{G_1}{K - 1}\)
    • 残差: \(V_2 = \frac{G_2}{N - K}\)

最後に統計量 \(F\) 値を計算する. これは

\[F = \frac{V_1}{V_2}\]

で与えられる.

この量 \(F\) は \(\geq 0\) の範囲で分布する \(F\) 分布に従う量で, 上側に関する片側検定をすることに意味がある. つまり,

(1)

この問題で水準間平方和 \(S_A\) としてあるのがおそらく要因の平方和のこと. \(S_e\) は残差.

この問題では要因としては月だけを考えているので年ごとの平均というのはミスリーディング.

選択肢は1が答え.

(2)

全体のデータ点が \(N = 12 \times 11 = 132\) 個. 全体の自由度は \(N - 1 = 131\) . 要因ごとの自由度は \(K - 1 = 12 - 1 = 11\) . 残差の自由度は \(N - N_k = 132 - 12 = 120\) , または全体の自由度と要因の自由度の差で \(131-11 = 120\) .

(3)

帰無仮説は「全てが等しいこと」である. ただしこれでは選択肢は絞れない.

対立仮説は「いずれかが異なる」である. ここで I は誤りであることが分かる.

付表のF分布表を読む. 今このF分布の自由度は \((11, 120)\) . これで上側5%の点は, ぴったりがないんだけど, 1.910 より小さくて 1.750 よりは大きいことだけが分かる. 今 \(F = 3.0471\) と, これらより大きいので帰無仮説は棄却していい. したがって II は誤り.

P値は棄却出来るギリギリの上側確率のこと, であってる??? 自由度 \((11,120)\) の値が付表にないので諦めて \((10,120)\) から読む.

\(F_p\) の \(p\) に関して単調減少であることはこれを見ても, あるいは意味を考えても明らか.

与えられたデータでは \(F=3.0471\) であってもっと \(p=0.025\) の値よりも大きいので, \(F=3.0471\) に対応する p 値はもっと小さいことが分かる.

以上から III は正しい.

問18

(1)

普通の線形回帰モデル. Estimate が対応する係数のことだろう. Intercept は切片ね. 選択肢1しか正しくない.

(2)

I について. 最小2乗誤差で最適化するとこれが成り立つ.

今データ \(\{ (x_i, y_i) \}\) をモデル \(\hat{y_i} = a + b x_i\) で表している. そして最小二乗法をしているということは

\[L = \sum_i (y_i - a - b x_i)^2\]

という値を最小化している. そのときはもちろん \(L\) の勾配がゼロであるということ. \(a\) で微分すると良くて

\[\partial_a L = - \sum_i (y_i - a - b x_i) = 0\]

すなわち,

\[\sum_i y_i = \sum_i (a+bx_i) = \sum_i \hat{y_i}\]

を得る. 両辺を \(N\) で割れば, 平均が等しいことも分かる.

II について. 平均を期待値と読み替えておけば, 期待値の線形性から分かる.

\(\hat{y} = 14.4 + 0.4 x\) であって, 期待値 \(Ey=31.3\) であるという.

\[Ex = (Ey - 14.4) / 0.4 = 42.25\]

III について. それはそう.

(3)

I について. 単回帰と重回帰の違いは説明変数がただ一つか, 2つ以上か. 2つの変数の係数を等しいとすることは, その変数の和を取った一つの変数に置き換えるということ. 今の場合それはちょうど単回帰になる.

II について. 決定係数 \(R^2\) ( \(\in [0, 1]\) ) はモデルのデータへの当てはまり度合いを言う. 大きいほどよく当てはまっている. この問題では R-squared として出力されている.

さてこの値はモデルを複雑にすればするほど高くなる. そこで公平さのために自由度で調整をする. これが 自由度調整済み決定係数 . この問題ではおそらく R-squared Adjusted というのがそれだろう. 見てみると単回帰の方が大きい. 大きいほうが良いので, 単回帰を選択するべき.

III について. それはそう.

Sat Oct 17 2020 日記

冗談でなく先月と今月お金使いすぎ問題がある. 税金だったり不可避なものもあるけど. 分かってるのに moon PREMIUM EDITION を, 人が買ってるのを見て, 買ってしまった. 8800円. これからこのサントラが届いてまたそれが一万円弱する請求が来るはず. お金で悩むのは苦しい.

↑ Amazon限定PC壁紙を外して7200円で買い直した.

商品の値段の一部は間違いなく, その商品が私の手元に来る迄に掛かった人件費及び製造コストである. これは現在の大抵の社会で間違いなくそうだし, 大抵の思想の人たちはそれはそうだと認めている. しかしだ. 消費者にとってはつい, 知ったことではないということになる. Amazonに支払った7200円の中には間接的に, 配達業者に支払われる代金の一部が含まれているのが事実だ. しかしそれがいくらであろうが, 私の知ったことではないし, その商品の本質的な価値の中にはそれは含まれないようにどうも思える. 安い労働者が多少乱暴に配達しようが, 高い労働者が懇切丁寧に配達しようが, 届く中身は同じだ. 私の人生への寄与は中身が重要だ. とかいうと, 安い配達業者だと, 箱を凹ませたり, 最悪, 中を故障させるだという指摘がありえる. それはそうだ. 故障されたら困る. Amazonの場合はおそらく返品や交換に対応してくれるが, 結局このためのコストも, 元々の買値に含まれているからこそ, 気前よく対応してくれるわけだ.

上手く出来てるように思えるが, もやもやが残る. 多少乱暴ではあったが, それでも無事に届けてくれた場合は? 交換の対応のための確率的なコストがやはり含まれていて, 私は無駄にこれにお金を払ったことになる. この最適化問題を考えると至上主義または社会主義になってしまう. 問題の解き方によって前者になったり後者になったりするわけだが, 問題意識は少なくともこの点において同じだ. これらは社会全体の最適化問題になっていて, 私一人のことを見てくれてるわけじゃない. 資本主義も社会主義も共産主義も, それらはお前個人を豊かにするのが目的ではない. ゆめゆめ忘れるなかれ.

何が言いたかったかというと, 7200円で買った商品が家に届いたとき, 私は7200円分の資産を手に入れた, ということにはならないのである. もしそうなのであれば, 私は買い物によって1円も損していない, ただお金が商品に形を変えただけだと言える. しかしそうではない. その資産の価値は残念ながら7200円未満である. 買い物というのは, すればするほど, 資産を減らす行為である.