Reinforcement Learning
はじめに Fast AutoAugmentを読んだのでメモ. とにかく計算時間のかかるAutoAugmentを高速(CIFAR-10:5000->3.5, SVHN:1000->1.5, ImageNet:15000->450 GPU hours)にした論文. Fast AutoAugment Search Space まずを入力空間上のaugmentation operations の…
はじめに AutoAugment:Learning Augmentation Strategies from Dataを読んだのでメモ. 学習対象のデータに合わせて最適なdata augmentationの方法を強化学習的に得ようという試み. 得られたpolicyで学習されたモデルは現状のSoTAモデルを上回る精度を達成…
はじめに Exploration via Flow-Based Intrinsic Rewardsを読んだのでメモ. Flow-based Intrinsic Curiosity Module (FCIM) 最近はやりのCuriosityを使った強化学習.ここではoptical flowを利用したintrinsic rewardを提案.手法は非常に単純で,FlowNetラ…
主にOpenAIが公開している強化学習のプログラムであるSpinning upで勉強してみたメモのまとめ. その1 Introduction to RL Part1についてのメモ その2 Introduction to RL Part2についてのメモ その3 Introduction to RL Part3についてのメモ その4 Algorith…
はじめに その7ということで今度はSoft Actor-Critic(SAC)をpytorchで実装する. Soft Actor-Critic SACはTD3とほぼ同時期にpublishされた論文.内容の肝としてはDDPGをベースにentropy regularizationを加えたというもの.簡単に言ってしまえば報酬に対して…
はじめに その6ということで今度はTwin Delayed DDPG(TD3)をpytorchで実装する. Twin Delayed DDPG DDPGは基本的にはいいアルゴリズムだが,時たま学習が破綻する場合があるとのこと.その理由としてはQ関数が学習初期において過大評価を行なってしまい,…
はじめに その5ということで今度はDeep Deterministic Policy Gradient(DDPG)をpytorchで実装する. Deep Deterministic Policy Gradient DDPGは今までと違いQ-learningの枠組みを取り入れた(論文の背景的にはQ-learningにpolicy gradientを取り柄れたと…
はじめに その4ということで具体的なアルゴリズムの実装をpytorchでしてみる.今回はalgorithms docsの中にあるVanilla Policy Gradient(VPG)の実装をする. Vanilla Policy Gradient VPGはSpinning Upのintroduction to rlのpart 3で扱ったsimplest polic…
はじめに その3ということで一応Introduction to RLの最終回.今回勉強したページはこちら Part 3: Intro to Policy Optimization 今回はpolicy optimizationの基礎理論とその実装について. Deriving the Simplest Policy Gradient まずはでparameterizeさ…
はじめに OpenAIが提供するSpinning Upで深層強化学習の勉強をしたのでメモその2.今回勉強した内容はこちら. Taxonomy of RL Algorithms RLアルゴリズムを手法ごとに分類しようというもの.Part2のページに木構造でいい感じにまとめた図がある.Part 2の…
はじめに OpenAIが提供するSpinning Upで深層強化学習の勉強をしたのでメモ.ちなみに強化学習は完全素人で何も知らない状態から始めていて,とりあえずの取っ掛かりとしてSpinning Upを利用してみたと言うところ.個人的にtensorflowで書かれているのがしん…