強化学習

2017-12-16 (Sat.)

強化学習

教科書

「これからの強化学習」

状態遷移モデル

定義

報酬 (reward)

r(s,a,s) で表される関数

収益 (G)

例えば

という収益に対して、

割引報酬和 (discounted total reward) とは、定数 0<γ<1 に対して

Gt=i=0γiRt+1=Rt+γRt+1+γ2Rt+2+

というもので、これがよく使われる.

方策 ( π )

アクション a の選び方のルールのこと. 便宜上、アクション集合の上の確率分布として与える.

状態価値関数 ( V )

状態 s の良さを収益 G 及び方策 π の下で計るもの.

Vπ(s)=Eπ[Gt:st=s]

すなわち、状態が s の時点での Gt の平均で、ただし方策として π を採用したもの.

行動価値関数 ( Q )

状態 s の時点でアクション a を採用することの良さを、 V と同様に計るもの.

Qπ(s,a)=Eπ[Gt:st=s,at=a]

最適 - 関数

V,Q は共に方策 π を取る. 値を最大化するような π を採用するものを、最適状態価値、最適行動価値という.

V(s)=maxπVπ(s) Q(s,a)=maxπQπ(s,a)