2017-12-16 (Sat.)
「これからの強化学習」
略
\(r(s, a, s')\) で表される関数
例えば
という収益に対して、
割引報酬和 (discounted total reward) とは、定数 \(0 < \gamma < 1\) に対して
\[G_t = \sum_{i=0}^\infty \gamma^i R_{t+1} = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots\]というもので、これがよく使われる.
アクション \(a\) の選び方のルールのこと. 便宜上、アクション集合の上の確率分布として与える.
状態 \(s\) の良さを収益 \(G\) 及び方策 \(\pi\) の下で計るもの.
\[V^\pi(s) = \mathbb{E}^\pi \left[ G_t : s_t = s \right]\]すなわち、状態が \(s\) の時点での \(G_t\) の平均で、ただし方策として \(\pi\) を採用したもの.
状態 \(s\) の時点でアクション \(a\) を採用することの良さを、 \(V\) と同様に計るもの.
\[Q^\pi(s, a) = \mathbb{E}^\pi \left[ G_t : s_t = s, a_t = a \right]\]\(V, Q\) は共に方策 \(\pi\) を取る. 値を最大化するような \(\pi\) を採用するものを、最適状態価値、最適行動価値という.
\[V^*(s) = \max_\pi V^\pi(s)\] \[Q^*(s, a) = \max_\pi Q^\pi(s, a)\]