強化学習
2017-12-16 (Sat.)
教科書
「これからの強化学習」
状態遷移モデル
略
定義
報酬 (reward)
で表される関数
収益 (G)
-
ある時点 (時刻) での収益 とは、それ以降で得られる報酬の見込み
- 例えばそれ以降 T ステップで得られる報酬の平均など
- 基本的にこれの最大化を目指す最適化を行う
例えば
という収益に対して、
割引報酬和 (discounted total reward) とは、定数 に対して
というもので、これがよく使われる.
方策 ( )
アクション の選び方のルールのこと. 便宜上、アクション集合の上の確率分布として与える.
状態価値関数 ( )
状態 の良さを収益 及び方策 の下で計るもの.
すなわち、状態が の時点での の平均で、ただし方策として を採用したもの.
行動価値関数 ( )
状態 の時点でアクション を採用することの良さを、 と同様に計るもの.
最適 - 関数
は共に方策 を取る. 値を最大化するような を採用するものを、最適状態価値、最適行動価値という.