Differentiable Convex Optimization Layersについて調べたのでメモ

はじめに Differentiable Convex Optimization Layersについて調べたのでメモ．注意として凸最適問題やそのソルバーには一切精通していないため，お気持ちとライブラリの簡単な使い方だけ説明する．気持ちはどうでもいいから使い方だけという人は後半へ． …

2018-12-25

OpenAIのSpinning Upで強化学習を勉強してみた　その7

Reinforcement Learning 実装

はじめにその7ということで今度はSoft Actor-Critic(SAC)をpytorchで実装する． Soft Actor-Critic SACはTD3とほぼ同時期にpublishされた論文．内容の肝としてはDDPGをベースにentropy regularizationを加えたというもの．簡単に言ってしまえば報酬に対して…

2018-12-25

OpenAIのSpinning Upで強化学習を勉強してみた　その6

Reinforcement Learning 実装

はじめにその6ということで今度はTwin Delayed DDPG（TD3）をpytorchで実装する． Twin Delayed DDPG DDPGは基本的にはいいアルゴリズムだが，時たま学習が破綻する場合があるとのこと．その理由としてはQ関数が学習初期において過大評価を行なってしまい，…

2018-12-23

OpenAIのSpinning Upで強化学習を勉強してみた　その5

Reinforcement Learning 実装

はじめにその5ということで今度はDeep Deterministic Policy Gradient（DDPG）をpytorchで実装する． Deep Deterministic Policy Gradient DDPGは今までと違いQ-learningの枠組みを取り入れた（論文の背景的にはQ-learningにpolicy gradientを取り柄れたと…

2018-12-23

OpenAIのSpinning Upで強化学習を勉強してみた　その4

Reinforcement Learning 実装

はじめにその4ということで具体的なアルゴリズムの実装をpytorchでしてみる．今回はalgorithms docsの中にあるVanilla Policy Gradient（VPG）の実装をする． Vanilla Policy Gradient VPGはSpinning Upのintroduction to rlのpart 3で扱ったsimplest polic…

2018-08-29

MINEを使ってinfoGANを実装した

生成モデル実装 GAN

はじめに Mutual information neural estimation（MINE）を使ってinfoGANを実装したのでメモ．MINEに関してのメモはこちら．設定オリジナルのinfoGANと同様にMNISTで離散変数1つ，連続変数2つでgeneratorを学習した．infoGANの特徴である相互情報量最大化…