Fast AutoAugmentを読んだのでメモ

Reinforcement Learning

はじめに Fast AutoAugmentを読んだのでメモ．とにかく計算時間のかかるAutoAugmentを高速(CIFAR-10:5000->3.5, SVHN:1000->1.5, ImageNet:15000->450 GPU hours)にした論文． Fast AutoAugment Search Space まずを入力空間上のaugmentation operations の…

2020-03-09

AutoAugment:Learning Augmentation Strategies from Dataを読んだのでメモ

Reinforcement Learning

はじめに AutoAugment:Learning Augmentation Strategies from Dataを読んだのでメモ．学習対象のデータに合わせて最適なdata augmentationの方法を強化学習的に得ようという試み．得られたpolicyで学習されたモデルは現状のSoTAモデルを上回る精度を達成…

2019-05-30

Exploration via Flow-Based Intrinsic Rewardsを読んだのでメモ

Reinforcement Learning

はじめに Exploration via Flow-Based Intrinsic Rewardsを読んだのでメモ． Flow-based Intrinsic Curiosity Module (FCIM) 最近はやりのCuriosityを使った強化学習．ここではoptical flowを利用したintrinsic rewardを提案．手法は非常に単純で，FlowNetラ…

2018-12-25

強化学習勉強まとめ

Reinforcement Learning

主にOpenAIが公開している強化学習のプログラムであるSpinning upで勉強してみたメモのまとめ．その1 Introduction to RL Part1についてのメモその2 Introduction to RL Part2についてのメモその3 Introduction to RL Part3についてのメモその4 Algorith…

2018-12-25

OpenAIのSpinning Upで強化学習を勉強してみた　その7

Reinforcement Learning 実装

はじめにその7ということで今度はSoft Actor-Critic(SAC)をpytorchで実装する． Soft Actor-Critic SACはTD3とほぼ同時期にpublishされた論文．内容の肝としてはDDPGをベースにentropy regularizationを加えたというもの．簡単に言ってしまえば報酬に対して…

2018-12-25

OpenAIのSpinning Upで強化学習を勉強してみた　その6

Reinforcement Learning 実装

はじめにその6ということで今度はTwin Delayed DDPG（TD3）をpytorchで実装する． Twin Delayed DDPG DDPGは基本的にはいいアルゴリズムだが，時たま学習が破綻する場合があるとのこと．その理由としてはQ関数が学習初期において過大評価を行なってしまい，…

2018-12-23

OpenAIのSpinning Upで強化学習を勉強してみた　その5

Reinforcement Learning 実装

はじめにその5ということで今度はDeep Deterministic Policy Gradient（DDPG）をpytorchで実装する． Deep Deterministic Policy Gradient DDPGは今までと違いQ-learningの枠組みを取り入れた（論文の背景的にはQ-learningにpolicy gradientを取り柄れたと…

2018-12-23

OpenAIのSpinning Upで強化学習を勉強してみた　その4

Reinforcement Learning 実装

はじめにその4ということで具体的なアルゴリズムの実装をpytorchでしてみる．今回はalgorithms docsの中にあるVanilla Policy Gradient（VPG）の実装をする． Vanilla Policy Gradient VPGはSpinning Upのintroduction to rlのpart 3で扱ったsimplest polic…

2018-11-16

OpenAIのSpinning Upで強化学習を勉強してみた　その３

Reinforcement Learning

はじめにその３ということで一応Introduction to RLの最終回．今回勉強したページはこちら Part 3: Intro to Policy Optimization 今回はpolicy optimizationの基礎理論とその実装について． Deriving the Simplest Policy Gradient まずはでparameterizeさ…