機械学習とかコンピュータビジョンとか

CVやMLに関する勉強のメモ書き。

2018-12-01から1ヶ月間の記事一覧

強化学習勉強まとめ

主にOpenAIが公開している強化学習のプログラムであるSpinning upで勉強してみたメモのまとめ. その1 Introduction to RL Part1についてのメモ その2 Introduction to RL Part2についてのメモ その3 Introduction to RL Part3についてのメモ その4 Algorith…

OpenAIのSpinning Upで強化学習を勉強してみた その7

はじめに その7ということで今度はSoft Actor-Critic(SAC)をpytorchで実装する. Soft Actor-Critic SACはTD3とほぼ同時期にpublishされた論文.内容の肝としてはDDPGをベースにentropy regularizationを加えたというもの.簡単に言ってしまえば報酬に対して…

OpenAIのSpinning Upで強化学習を勉強してみた その6

はじめに その6ということで今度はTwin Delayed DDPG(TD3)をpytorchで実装する. Twin Delayed DDPG DDPGは基本的にはいいアルゴリズムだが,時たま学習が破綻する場合があるとのこと.その理由としてはQ関数が学習初期において過大評価を行なってしまい,…

OpenAIのSpinning Upで強化学習を勉強してみた その5

はじめに その5ということで今度はDeep Deterministic Policy Gradient(DDPG)をpytorchで実装する. Deep Deterministic Policy Gradient DDPGは今までと違いQ-learningの枠組みを取り入れた(論文の背景的にはQ-learningにpolicy gradientを取り柄れたと…

OpenAIのSpinning Upで強化学習を勉強してみた その4

はじめに その4ということで具体的なアルゴリズムの実装をpytorchでしてみる.今回はalgorithms docsの中にあるVanilla Policy Gradient(VPG)の実装をする. Vanilla Policy Gradient VPGはSpinning Upのintroduction to rlのpart 3で扱ったsimplest polic…

Grid R-CNNを読んだのでメモ

はじめに Grid R-CNNを読んだのでメモ.前に読んだcornerNetと同じくkey pointベースの検出方法.投稿時期とフォーマットからおそらくcvprに投稿された論文.また今年もSenseTimeから沢山の論文がアクセプトされるのでしょうか. Grid R-CNN 基本的にCornerN…