はじめに

ELASTIC-INFOGAN: UNSUPERVISED DISENTANGLED REPRESENTATION LEARNING IN IMBALANCED DATAを読んだのでメモ．

気持ち

InfoGANがclass-imbalancedなデータに対してうまく(離散の)潜在表現をdisentangleできないという課題に注目し，この論文ではその原因をデータがクラスごとに偏りがないという仮定に基づく潜在変数の事前分布の設定によるものとしている．なのでデータの分布自体を推定パラメータとして扱うことで解決しようというもの．さらにある画像と同じ潜在表現を持つはずの画像に対して同じ潜在表現を割り当てるようにするため，indentity-preseving transformationを用いた正則化を提案．

注意として，infoGANでは連続の潜在表現のdisentangleも行なっていてたがこの論文では離散の表現のみに着目してる．

Approach

$\mathcal{X}=\{x_1,\dots,x_N\}$ を $k$ 個の異なるクラスを持つラベルなしのデータセットとする．また，クラスの偏り方に関する情報は与えられないものとする．目標は物体のカテゴリのdisentangleされた表現を学習可能な生成モデル $G$ を学習することと，生成過程を通して真の偏ったクラス分布を推定すること．

InfoGAN

元となるInfoGANは潜在変数 $c$ とそこから生成された画像 $G(z,c);z\sim P_\text{noise}(z)$ 間の相互情報量を最大化することで潜在表現をdisentangleするモデル．実際には相互情報量 $I(c,G(x,z))$ は基本的なGANを学習する上での正則化として使われる．相互情報量は一般的に計算に $P(c|x)$ が必要とされ，扱いにくいことが多く，InfoGANでは $P(c|x)$ を追加のニューラルネット $Q(c|x)$ で近似することで $I(c,G(c,z) )$ の下限を利用して学習を行う．この時の目的関数は次のようになる．

$\displaystyle \min_{G,Q}\max_DV_\text{InfoGAN}(D,G,Q)=V_\text{GAN}(D,G)-\lambda_1L_1(G,Q)\\ L_1(G,Q)=\mathbb{E}_{c\sim P(c),x\sim G(z,c)}[\log Q(c|x)]+H(c)$

$D$ はdiscriminatorで $H(c)$ は潜在変数が従う分布のエントロピー．離散の潜在変数を考えた場合，InfoGANではクラス数 $k$ に対して $c\sim Cat(K=k,p=1/k)$ というカテゴリカル分布を潜在変数の事前分布として学習を行う．そのためエントロピーの項は定数として扱うこととなる．

Elastic-InfoGAN

class imbalancedなデータにおいては上記の一様な分布を仮定することは不適切であるため，ここでは潜在変数の従う分布のパラメータを学習可能なものとし，さらに潜在変数と生成画像の普遍性を導入するためのidentity-preserving transformationを導入する．

Learning the prior distribution

事前分布のパラメータ $p$ を学習可能とするため，こkではInfoGANにGumbel-Softmaxを導入する．Gumbel-Softmaxは $p_1,\dots,p_k$ をクラス確率とした時次のような $k$ 次元ベクトル $c$ を微分可能な表現でサンプルする．

$\displaystyle c_i=\frac{\exp((\log(p_i)+g_i)/\tau)}{\sum_{j=1}^k\exp((\log(p_j)+g_j)/\tau)}$

$g_i,g_j$ はガンベル分布 $Gumbel(0,1)$ からのサンプルで $\tau$ は得られたベクトルのエントロピーを調整する温度係数．Elastic InfoGANは非常に単純でInfoGANのカテゴリカル分布に対するパラメータを学習可能なパラメータとして置き換えるだけ．

一方で，この離散変数を用いてunsupervisedなクラスタリングを行なった際期待するカテゴリとは違う分類を行う場合がある．その例が論文のFig 3に載せられているが，MNISTの場合数字ごとにクラスタリングを行なって欲しいが数字の傾き具合でクラスタリングが行われてしまっている．

Learning object identities

上記の問題を回避するため，InfoGANにさらなる改良を与える．モデルがlow-levelな要因（ここでは回転や文字の太さ，証明変化などを例としている）ではなくhigh-lebelな情報に焦点を当てるように実画像に対してidentity-preservingな変換を与え，これらの変換に対し $Q(c|z)$ が普遍となるような学習を行う．semi-sueprvisedの文脈ではconsistency regularizationとしてよく知られた正則化ではある．

実画像 $x\sim P_\text{data}(x)$ に対して変換 $\delta$ を行い新たな画像 $x'=\delta(x)$ を得る．これに対して次のような損失を計算する．

$\displaystyle L_\text{trans}(Q)=\mathrm{d}(Q(c_x|x),Q(c_{x'}|x') )$

$\mathrm{d}$ は距離関数で，この損失を最小化することで， $\delta$ で表現可能なlow-levelな情報に関して $Q(c|x)$ が普遍となり，論文のFig 3で見たような回転具合でのdisentangle等が起きなくなるという主張．ただ，理想的には $Q$ は低いエントロピーを持つべきであるが．このまま学習してもエントロピーが高くなってしまう（正直なんで高くなるか論文の言っていることがよくわからなかった）．なので次のエントロピーに関する項も損失に加える．