強化学習勉強まとめ

Reinforcement Learning

主にOpenAIが公開している強化学習のプログラムであるSpinning upで勉強してみたメモのまとめ．その1 Introduction to RL Part1についてのメモその2 Introduction to RL Part2についてのメモその3 Introduction to RL Part3についてのメモその4 Algorith…

2018-12-25

OpenAIのSpinning Upで強化学習を勉強してみた　その7

Reinforcement Learning 実装

はじめにその7ということで今度はSoft Actor-Critic(SAC)をpytorchで実装する． Soft Actor-Critic SACはTD3とほぼ同時期にpublishされた論文．内容の肝としてはDDPGをベースにentropy regularizationを加えたというもの．簡単に言ってしまえば報酬に対して…

2018-12-25

OpenAIのSpinning Upで強化学習を勉強してみた　その6

Reinforcement Learning 実装

はじめにその6ということで今度はTwin Delayed DDPG（TD3）をpytorchで実装する． Twin Delayed DDPG DDPGは基本的にはいいアルゴリズムだが，時たま学習が破綻する場合があるとのこと．その理由としてはQ関数が学習初期において過大評価を行なってしまい，…

2018-12-23

OpenAIのSpinning Upで強化学習を勉強してみた　その5

Reinforcement Learning 実装

はじめにその5ということで今度はDeep Deterministic Policy Gradient（DDPG）をpytorchで実装する． Deep Deterministic Policy Gradient DDPGは今までと違いQ-learningの枠組みを取り入れた（論文の背景的にはQ-learningにpolicy gradientを取り柄れたと…

2018-12-23

OpenAIのSpinning Upで強化学習を勉強してみた　その4

Reinforcement Learning 実装

はじめにその4ということで具体的なアルゴリズムの実装をpytorchでしてみる．今回はalgorithms docsの中にあるVanilla Policy Gradient（VPG）の実装をする． Vanilla Policy Gradient VPGはSpinning Upのintroduction to rlのpart 3で扱ったsimplest polic…

2018-12-02

Grid R-CNNを読んだのでメモ

detection

はじめに Grid R-CNNを読んだのでメモ．前に読んだcornerNetと同じくkey pointベースの検出方法．投稿時期とフォーマットからおそらくcvprに投稿された論文．また今年もSenseTimeから沢山の論文がアクセプトされるのでしょうか． Grid R-CNN 基本的にCornerN…

機械学習とかコンピュータビジョンとか

CVやMLに関する勉強のメモ書き。

2018-12-01から1ヶ月間の記事一覧

強化学習勉強まとめ

OpenAIのSpinning Upで強化学習を勉強してみた　その7

OpenAIのSpinning Upで強化学習を勉強してみた　その6

OpenAIのSpinning Upで強化学習を勉強してみた　その5

OpenAIのSpinning Upで強化学習を勉強してみた　その4

Grid R-CNNを読んだのでメモ

2018-12-01から1ヶ月間の記事一覧

強化学習勉強まとめ

OpenAIのSpinning Upで強化学習を勉強してみた その7

OpenAIのSpinning Upで強化学習を勉強してみた その6

OpenAIのSpinning Upで強化学習を勉強してみた その5

OpenAIのSpinning Upで強化学習を勉強してみた その4

Grid R-CNNを読んだのでメモ

OpenAIのSpinning Upで強化学習を勉強してみた　その7

OpenAIのSpinning Upで強化学習を勉強してみた　その6

OpenAIのSpinning Upで強化学習を勉強してみた　その5

OpenAIのSpinning Upで強化学習を勉強してみた　その4