2017-06-17 (Sat.)
ここでは次のようなゲームを考える.
特に最後のルールが特別で、同時に (唯一つの) 手を見せ合ってポイントを分け合うようなゲームを考えている.
互いの利得関数の和が常にゼロであるようなゲーム:
のことを ゼロ和ゲーム という. 後述するが (実は) ゼロでなく定数であっても本質は変わらない (戦略的同値) ので、そういう場合もゼロ和ゲームという.
とりあえずは利得の和がゼロになるようなゼロ和ゲームだけのことを考える.
を目指す.
単に行列ゲームという時、ゼロ和ゲームのことを指し、利得行列
互いに相手の手は分からないが、お互い最善を尽くして戦略を考えることを仮定して戦略を考える. 適当な考えの下で、唯一つの戦略を選択することを 純粋戦略 と言う. (実際にプレイできる戦略はただ一つなのだから唯一つの戦略を選択するのは当たり前に思える.)
ゼロ和ゲームの純粋戦略を考える. ゼロ和では相手の最善は自分の最悪であるので、相手は自分にとって常に悪い手を取ると考えたほうが良い. 具体的には、相手が自分にとって最悪の手を取ったとしても最もマシな利得が得られるような戦略を考える.
例えば次のような利得行列について
プレイヤー
が選ばれる. プレイヤー
が得られることである.
同様に、
が最悪.
が最悪.
というわけで
以上のようにプレイヤー
によって
逆も同様で、プレイヤー
によって
利得行列
が成立するとき、このゲームは厳密に決定されるといい、これが成立する
実行列
が常に成り立つ.
ゲームが厳密に定まらないような行列ゲームはいくらでもある. 厳密に定まるかどうかを判定するための定理がある.
利得行列に鞍点があることが厳密に定まることの必要十分条件.
ここで鞍点とはある
が成立する点のこと. 鞍点があるとき、明らかにその鞍点自体が均衡点となる.
証明は地道に確かめるだけなので略.
鞍点として
さてゲームが厳密に定まらない、すなわち鞍点が存在しない例としてじゃんけんがある.
マックスミニ値
これが純粋戦略の限界.
純粋戦略がまずかったのは確定的に唯一つの戦略を選ぼうとしたことだった. 次は複数の戦略を混ぜることを考える. すなわち、戦略集合の上の確率分布を戦略だと考えこれを 混合戦略 と呼ぶ.
戦略集合
このような行ベクトル
実際に戦略を選択する場合に、
利得行列
と計算できる.
ところで
とも書ける (
略記法として、
も定義する.
純粋戦略の時と同様にミニマックス原理を混合戦略に当てはめる. すなわち、 プレイヤー
を指標にし、プレイヤー
を指標にする. また同様に
のとき、
純粋戦略のときに成立する性質がほぼほぼ成り立つことを見ていく.
純粋戦略のときと全く同様.
最適戦略が
純粋戦略のときは鞍点の存在として紹介した.
仮に
ということ. そして一般に
は成立するので、
が得られる.
先の補題と組み合わせると
を得る.
最適戦略として
混合戦略の場合、確率分布どうしの鞍点みたいなものを探す必要がありそうだが、次の定理によって、もう少し探索範囲が小さくできる.
ゲームの解が
すなわち、混合戦略 vs 純粋戦略での利得だけを考慮すればよい.
先ほどの定理から
と同値であることは言える.
なぜなら
だから
つまり
というわけで、
どういうに
ゲームの解が
で、重要な次の定理がある.
任意の行列ゲームに対して必ず解が存在する.
つまり実行列
が常に成立する.
後でより一般的な場合 (双行列ゲーム) で示す.
利得行列が歪対称行列になっている、すなわち
となるような行列ゲームを 対称行列 という. 歪対称行列の特性として正方行列であること. 従って2人のプレイヤーの取れる戦略は同じ集合だと見なせる. また対角成分はゼロである. 例えばじゃんけんが対称ゲームの例である.
対称ゲームのゲームの値はゼロである.
ミニマックス定理からゲームの解
これが解であることと同値な条件は前述した鞍点定理から、任意の
が成立することであった.
これの各項の転置を取って
鞍点定理より、
というわけで、ゲームの値は
となる. 最後のを転置すると
従って
を得る.
プレイヤー2人の利得の和がゼロ (或いは、定数) とは限らないゲームを考える. 2種類の利得を管理する必要があるので行列は2つ必要である. 従って双行列で管理する.
に対して、
ゼロ和ゲームでは
これによって表現される2人非ゼロ和ゲームを 双行列ゲーム (bimatrix game) という. 初めに説明した行列ゲームの1つだとして、同様に
これらを仮定する. またプレイ (各々が戦略を選ぶ行為) は一回きりのものとする.
囚人のジレンマ [^1] は双行列ゲームの典型例. 参考文献の Wikipedia では懲役年数が行列になっているが今は最大化を目標にしたいので、これのマイナスを利得だと思えば良い.
ジレンマの囚人のストーリーではこの一列一行目のことを「協力」、二列二行目のことを「裏切り」などとして説明されている.
ところで囚人のジレンマは
基本的には今まで言ってた均衡点と同じ概念.
2人の混合戦略の集合
を満たすこと. また
今考えるゲームは相手の手を知らずに自分の手を決めているが、仮に、相手の戦略を知ってから自分の最適な戦略を考えるとする.
プレイヤー
具体的な定義は大体分かるでしょうけど
明らかにナッシュ均衡
ということ.
最適反応の定義から明らか.
また次のように言い換えることも出来る.
ナッシュ均衡の集合
を用いて
が言える.
ここらへんの定理を用いて、頑張ってナッシュ均衡が求められる.
行列ゲームのときと同様の言い方も出来る.
双行列ゲームについて
任意の
前回も混合戦略と純粋戦略を比較すればよかったように、今回もそれが成り立つ.
双行列ゲーム
任意の
双行列ゲームは均衡点を1つ以上持つ.
もちろんゼロ和ゲームは双行列ゲームの特別な場合だから、これが成り立つなら先ほどのミニマックス定理が示されたことに成る.
証明は2つ前の不動点で均衡点を表現する定理を使う. なんか Brower の不動点定理ってのと組み合わせると出来るらしいけどわからん.
[^1] : 囚人のジレンマ - Wikipedia