はじめに

気持ち

教師なし表現学習の一般的なアプローチとしてデータを $p(x,z|\theta)=p(z|\theta)p(x|z,\theta)$ で表現される様な潜在変数モデルにフィットさせる方法があげられる．通常はこのモデルを真の分布とのKLダイバージェンス $L(\theta)=\mathrm{KL}[\hat{p}(x)||p(x|\theta)]$ を最小化する様に学習することでデータの潜在表現を獲得する．ただ，このKLダイバージェンスはほとんどの場合扱いにくく，代わりとしてevidence lower bound (ELBO)を最大化することでモデルの学習を行う．ただ，根本的な問題として，目的関数 $L(\theta)=\mathrm{KL}[\hat{p}(x)||p(x|\theta)]$ は $p(x|\theta)$ に関する式であって $p(x,z|\theta)$ に関する式にはなってないため，不自然な目的関数になっていることがあげられる．実際先行研究の結果からも，ELBOが良い表現学習をするためには十分でないことがわかっている．そこでここでは観測 $X$ と潜在表現 $Z$ の相互情報量 $I$ の側面から良い表現を導出するというのが話の流れ．以前に読んだモントリオール大の論文でも相互情報量を使った表現学習手法を提案していたが論文の時期的にはこちらが先．

相互情報量による表現学習

ここでの目標は確率的なエンコーダー $e(z|x)$ を使って観測データ $x$ を意味のある潜在表現 $z$ に変換すること．ただしエンコーダーは同時分布 $p_e(x,z)=p^\ast(x)e(z|x)$ ，周辺分布 $p_e(z)=\int dxp^\ast(x)e(z|x)$ ，条件付き分布 $p_e(x|z)=p_e(x,z)/p_e(z)$ で表現される．この表現の良し悪しを測る指標として次の相互情報量を用いる．

相互情報量はある確率変数がもう一方の確率変数の情報をどれほど持つかを測る指標で次の様に計算される．

$\displaystyle I_e(X;Z)=\int\int dxdzp_e(x,z)\log\frac{p_e(x,z)}{p^\ast(x)p_e(z)}$

相互情報量は $X,Z$ が独立の場合0（エンコーダーはデータの情報を一切持たない状態）になり，また $Z=X$ の場合は $X$ のエントロピー $H(X)$ （エンコーダーはデータの情報の全てを持つ状態）になる．

課題となるところは相互情報量の計算式に真の分布 $p^\ast(x)$ が含まれていて計算が困難なことと，周辺分布を求めるための周辺化の演算 $p_e(z)=\int dxp_e(x,z)$ の計算が困難なこと．前者は経験分布 $\hat{p}(x)$ に置き換えることで，後者は相互情報量のvariational boundsを使うことで回避できる．相互情報量の下界と上界は次の様に定められる．

$\displaystyle H-D\leq I_e(X;Z)\leq R\\ \displaystyle H\equiv-\int dzp^\ast(x)\log p^\ast(x) \\ \displaystyle D\equiv-\int dxp^\ast(x)\int dze(z|x)\log d(x|z) \\ \displaystyle R\equiv\int dxp^\ast(x)\int dze(z|x)\log\frac{e(z|x)}{m(z)}$

$d(x|z)$ はいわゆるデコーダーで $p_e(x|z)$ を近似する役割をし， $m(z)$ はmarginalと呼ばれ $p_e(z)$ を近似する役割をする． $H$ はデータのエントロピーでデータセットの分布具合を測る役割をするが，データセットの操作はできないので定数． $D$ はdistortionと呼ばれ，いわゆる再構成の良し悪しを測る項． $R$ は比率（rate）と呼ばれ，エンコーダーとmarginalのKLダイバージェンスの平均を表している．データが離散の場合には $H,D,R$ は全て非負の値をとる．

$D=0$ はデータを完璧にエンコードしてデコードすることができる（再構成できる）という状態で，これをauto-encoding limitと呼ぶ．そのauto-encoding limitでもっとも小さい $R$ は $H$ によって与えられる．つまり $R=H,D=0$ の状態であり，この状態は $d(x|z)=p_e(x|z)$ であることから下界がタイトであることを表す．逆に $m(z)$ が $p_e(z)$ をうまく近似できていない場合， $R$ は大きな値をとり， $m(z)$ が $R$ にしか関係がないため単純にコストが大きくなっている状態を表す．

$R=0$ は $R$ がKLダイバージェンスであることから $e(z|x)=m(z)$ であることを表し， $e(z|x)$ が $x$ に独立であることを意味する．したがってエンコーダーはデータの情報を全く表現できておらず，表現学習が失敗していることを表す．このとき，十分強力なデコーダーを用意すれば $z$ と $x$ が独立でも無理やり再構成を行うことができるため， $D$ は下界であるデータのエントロピー $H$ まで下げることができる．これは $R=0,D=H$ の状態を表していて，これをauto-decoding limitと呼ぶ． $R$ が固定値で $D$ が大きな値をとる場合には $d(x|z)$ が $D$ としか関係ないため単純にコストが大きくなっている状態を表す．

最後に $D=H-R$ の状態をとる場合には $m(z)=p_e(z),d(x|z)=p_e(x|z)$ の両方が成り立つため相互情報量の下界・上界共にタイトとなる．

仮に， $d(x|z),m(z),e(z|x)$ に関して有限のパラメータしか持たない場合，一般的に相互情報量の下界・上界はタイトになることはない．ただし，不等式を最もタイトに抑える $D$ または $R$ は存在することは保証されているため， $H=R+D$ を使って最適解を求めることができる．さらに，意図的に $m(z)$ の近似精度を下げて固定された $D$ のもとで $R$ を増加させることや， $d(x|z)$ の近似精度を下げて固定された $R$ のもとで $D$ を増加させることが可能．

$\beta$ -VAEとの関係

$R$ を固定とする代わりに，最適な $D$ を $R$ の関数 $D(R)$ として考える．すると，ルジャンドル変換により，固定の $\beta=\frac{\partial D}{\partial R}$ の下で $\min_{e(z|x),m(z),d(x|z)}D+\beta R$ を解くことで最適な $R$ と $D$ を求めることができる．目的関数を陽に書き表わせば次の様になる．

$\displaystyle \min_{e(z|x),m(z),d(x|z)}\int dxp^\ast(x)\int dze(z|x)\left[-\log d(x|z)+\beta\log\frac{e(z|x)}{m(z)}\right]$

これは $\beta$ -VAEの目的関数そのもので，仮に $\beta=1$ の場合にはVAEで使われていたELBOと一致する． $D$ は再構成誤差の項を表し， $R$ がKL項を表していることになる．ここでは $\beta\ll 1$ の場合には $R$ が大きくて $D$ が小さくなり， $\beta\gg 1$ の場合には $D$ が大きくて $R$ が小さくなる．