機械学習とかコンピュータビジョンとか

CVやMLに関する勉強のメモ書き。

Exploration via Flow-Based Intrinsic Rewardsを読んだのでメモ

はじめに

Exploration via Flow-Based Intrinsic Rewardsを読んだのでメモ.

Flow-based Intrinsic Curiosity Module (FCIM)

最近はやりのCuriosityを使った強化学習.ここではoptical flowを利用したintrinsic rewardを提案.手法は非常に単純で,FlowNetライクなモデルでoptical flowを推定して,photometric errorをintrinsic rewardにしてしまおうというもの.さっくり読んだので一番重要なこのerrorがintrinsic rewardになる気持ちがイマイチわからなかったのは反省.

Optical flowはforward flow (tフレーム目からt+1フレーム目方向のflow)とbackward flow(t+1フレーム目からtフレーム目方向のflow)の2種類のflowを推定する.

\displaystyle
\mathrm{F}_{forward}=G(S_t,S_{t+1},\Theta_f)\\
\mathrm{F}_{backward}=G(S_{t+1},S_{t},\Theta_f)

\Theta_fはモデルの学習パラメータで,S_ttフレーム目の観測.このoptical flowを使って画素をwarpingすることでS_tからS_{t+1}を推定する(逆方向も).

\displaystyle
\hat{S}_{t}=W(S_{t+1},\mathrm{F}_{forward},\beta)\\
\hat{S}_{t+1}=W(S_t,\mathrm{F}_{backward},\beta)

Warpingはbilinear補間で行う.\betaは推定されたflowを実スケールに直すスカラー.optical flowを推定するモデルは次の目的関数により学習される.

\displaystyle
\min_{\Theta_f}L_G=\min_{\Theta_f}(L^f+L^b)=\min_{\Theta_f}(\|S_{t+1}-\hat{S}_{s+1}\|^2+\|S_t-\hat{S}_t\|^2

さらにこの誤差を利用して次のようなintrinsic reward r^iを定義する.

\displaystyle
r^i=r^f+r^b=\frac{\xi}{2}(L^f+L^b)

\xiは報酬のスケーリングファクター.

まとめ

強化学習の論文はそんなに読んでいるわけではないので結果がどれくらいのものかあまりわからないが,デモ動画が面白い.