強化学習

2017-12-16 (Sat.)

教科書

「これからの強化学習」

略

\(r(s, a, s')\) で表される関数

例えば

という収益に対して、

割引報酬和 (discounted total reward) とは、定数 \(0 < \gamma < 1\) に対して

\[G_t = \sum_{i=0}^\infty \gamma^i R_{t+1} = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots\]

というもので、これがよく使われる.

アクション \(a\) の選び方のルールのこと. 便宜上、アクション集合の上の確率分布として与える.

状態 \(s\) の良さを収益 \(G\) 及び方策 \(\pi\) の下で計るもの.

\[V^\pi(s) = \mathbb{E}^\pi \left[ G_t : s_t = s \right]\]

すなわち、状態が \(s\) の時点での \(G_t\) の平均で、ただし方策として \(\pi\) を採用したもの.

状態 \(s\) の時点でアクション \(a\) を採用することの良さを、 \(V\) と同様に計るもの.

\[Q^\pi(s, a) = \mathbb{E}^\pi \left[ G_t : s_t = s, a_t = a \right]\]

\(V, Q\) は共に方策 \(\pi\) を取る. 値を最大化するような \(\pi\) を採用するものを、最適状態価値、最適行動価値という.

\[V^*(s) = \max_\pi V^\pi(s)\] \[Q^*(s, a) = \max_\pi Q^\pi(s, a)\]