Exploration via Flow-Based Intrinsic Rewardsを読んだのでメモ
はじめに
Exploration via Flow-Based Intrinsic Rewardsを読んだのでメモ.
Flow-based Intrinsic Curiosity Module (FCIM)
最近はやりのCuriosityを使った強化学習.ここではoptical flowを利用したintrinsic rewardを提案.手法は非常に単純で,FlowNetライクなモデルでoptical flowを推定して,photometric errorをintrinsic rewardにしてしまおうというもの.さっくり読んだので一番重要なこのerrorがintrinsic rewardになる気持ちがイマイチわからなかったのは反省.
Optical flowはforward flow (フレーム目からフレーム目方向のflow)とbackward flow(フレーム目からフレーム目方向のflow)の2種類のflowを推定する.
はモデルの学習パラメータで,はフレーム目の観測.このoptical flowを使って画素をwarpingすることでからを推定する(逆方向も).
Warpingはbilinear補間で行う.は推定されたflowを実スケールに直すスカラー.optical flowを推定するモデルは次の目的関数により学習される.
さらにこの誤差を利用して次のようなintrinsic reward を定義する.
は報酬のスケーリングファクター.
まとめ
強化学習の論文はそんなに読んでいるわけではないので結果がどれくらいのものかあまりわからないが,デモ動画が面白い.