2017-12-16 (Sat.)
「これからの強化学習」
略
\(r(s, a, s')\) で表される関数
例えば
という収益に対して、
割引報酬和 (discounted total reward) とは、定数 \(0 < \gamma < 1\) に対して \[G_t = \sum_{i=0}^\infty \gamma^i R_{t+1} = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots\] というもので、これがよく使われる.
アクション \(a\) の選び方のルールのこと. 便宜上、アクション集合の上の確率分布として与える.
状態 \(s\) の良さを収益 \(G\) 及び方策 \(\pi\) の下で計るもの. \[V^\pi(s) = \mathbb{E}^\pi \left[ G_t : s_t = s \right]\] すなわち、状態が \(s\) の時点での \(G_t\) の平均で、ただし方策として \(\pi\) を採用したもの.
状態 \(s\) の時点でアクション \(a\) を採用することの良さを、\(V\) と同様に計るもの. \[Q^\pi(s, a) = \mathbb{E}^\pi \left[ G_t : s_t = s, a_t = a \right]\]
\(V, Q\) は共に方策 \(\pi\) を取る. 値を最大化するような \(\pi\) を採用するものを、最適状態価値、最適行動価値という. \[V^*(s) = \max_\pi V^\pi(s)\] \[Q^*(s, a) = \max_\pi Q^\pi(s, a)\]