2018-12-01から1ヶ月間の記事一覧
主にOpenAIが公開している強化学習のプログラムであるSpinning upで勉強してみたメモのまとめ. その1 Introduction to RL Part1についてのメモ その2 Introduction to RL Part2についてのメモ その3 Introduction to RL Part3についてのメモ その4 Algorith…
はじめに その7ということで今度はSoft Actor-Critic(SAC)をpytorchで実装する. Soft Actor-Critic SACはTD3とほぼ同時期にpublishされた論文.内容の肝としてはDDPGをベースにentropy regularizationを加えたというもの.簡単に言ってしまえば報酬に対して…
はじめに その6ということで今度はTwin Delayed DDPG(TD3)をpytorchで実装する. Twin Delayed DDPG DDPGは基本的にはいいアルゴリズムだが,時たま学習が破綻する場合があるとのこと.その理由としてはQ関数が学習初期において過大評価を行なってしまい,…
はじめに その5ということで今度はDeep Deterministic Policy Gradient(DDPG)をpytorchで実装する. Deep Deterministic Policy Gradient DDPGは今までと違いQ-learningの枠組みを取り入れた(論文の背景的にはQ-learningにpolicy gradientを取り柄れたと…
はじめに その4ということで具体的なアルゴリズムの実装をpytorchでしてみる.今回はalgorithms docsの中にあるVanilla Policy Gradient(VPG)の実装をする. Vanilla Policy Gradient VPGはSpinning Upのintroduction to rlのpart 3で扱ったsimplest polic…
はじめに Grid R-CNNを読んだのでメモ.前に読んだcornerNetと同じくkey pointベースの検出方法.投稿時期とフォーマットからおそらくcvprに投稿された論文.また今年もSenseTimeから沢山の論文がアクセプトされるのでしょうか. Grid R-CNN 基本的にCornerN…