機械学習とかコンピュータビジョンとか

CVやMLに関する勉強のメモ書き。

Reinforcement Learning

Fast AutoAugmentを読んだのでメモ

はじめに Fast AutoAugmentを読んだのでメモ. とにかく計算時間のかかるAutoAugmentを高速(CIFAR-10:5000->3.5, SVHN:1000->1.5, ImageNet:15000->450 GPU hours)にした論文. Fast AutoAugment Search Space まずを入力空間上のaugmentation operations の…

AutoAugment:Learning Augmentation Strategies from Dataを読んだのでメモ

はじめに AutoAugment:Learning Augmentation Strategies from Dataを読んだのでメモ. 学習対象のデータに合わせて最適なdata augmentationの方法を強化学習的に得ようという試み. 得られたpolicyで学習されたモデルは現状のSoTAモデルを上回る精度を達成…

Exploration via Flow-Based Intrinsic Rewardsを読んだのでメモ

はじめに Exploration via Flow-Based Intrinsic Rewardsを読んだのでメモ. Flow-based Intrinsic Curiosity Module (FCIM) 最近はやりのCuriosityを使った強化学習.ここではoptical flowを利用したintrinsic rewardを提案.手法は非常に単純で,FlowNetラ…

強化学習勉強まとめ

主にOpenAIが公開している強化学習のプログラムであるSpinning upで勉強してみたメモのまとめ. その1 Introduction to RL Part1についてのメモ その2 Introduction to RL Part2についてのメモ その3 Introduction to RL Part3についてのメモ その4 Algorith…

OpenAIのSpinning Upで強化学習を勉強してみた その7

はじめに その7ということで今度はSoft Actor-Critic(SAC)をpytorchで実装する. Soft Actor-Critic SACはTD3とほぼ同時期にpublishされた論文.内容の肝としてはDDPGをベースにentropy regularizationを加えたというもの.簡単に言ってしまえば報酬に対して…

OpenAIのSpinning Upで強化学習を勉強してみた その6

はじめに その6ということで今度はTwin Delayed DDPG(TD3)をpytorchで実装する. Twin Delayed DDPG DDPGは基本的にはいいアルゴリズムだが,時たま学習が破綻する場合があるとのこと.その理由としてはQ関数が学習初期において過大評価を行なってしまい,…

OpenAIのSpinning Upで強化学習を勉強してみた その5

はじめに その5ということで今度はDeep Deterministic Policy Gradient(DDPG)をpytorchで実装する. Deep Deterministic Policy Gradient DDPGは今までと違いQ-learningの枠組みを取り入れた(論文の背景的にはQ-learningにpolicy gradientを取り柄れたと…

OpenAIのSpinning Upで強化学習を勉強してみた その4

はじめに その4ということで具体的なアルゴリズムの実装をpytorchでしてみる.今回はalgorithms docsの中にあるVanilla Policy Gradient(VPG)の実装をする. Vanilla Policy Gradient VPGはSpinning Upのintroduction to rlのpart 3で扱ったsimplest polic…

OpenAIのSpinning Upで強化学習を勉強してみた その3

はじめに その3ということで一応Introduction to RLの最終回.今回勉強したページはこちら Part 3: Intro to Policy Optimization 今回はpolicy optimizationの基礎理論とその実装について. Deriving the Simplest Policy Gradient まずはでparameterizeさ…

OpenAIのSpinning Upで強化学習を勉強してみた その2

はじめに OpenAIが提供するSpinning Upで深層強化学習の勉強をしたのでメモその2.今回勉強した内容はこちら. Taxonomy of RL Algorithms RLアルゴリズムを手法ごとに分類しようというもの.Part2のページに木構造でいい感じにまとめた図がある.Part 2の…

OpenAIのSpinning Upで強化学習を勉強してみた その1

はじめに OpenAIが提供するSpinning Upで深層強化学習の勉強をしたのでメモ.ちなみに強化学習は完全素人で何も知らない状態から始めていて,とりあえずの取っ掛かりとしてSpinning Upを利用してみたと言うところ.個人的にtensorflowで書かれているのがしん…