Fixing a Broken ELBOを読んだのでメモ
はじめに
Fixing a Broken ELBOを読んだのでメモ.
気持ち
教師なし表現学習の一般的なアプローチとしてデータをで表現される様な潜在変数モデルにフィットさせる方法があげられる.通常はこのモデルを真の分布とのKLダイバージェンスを最小化する様に学習することでデータの潜在表現を獲得する.ただ,このKLダイバージェンスはほとんどの場合扱いにくく,代わりとしてevidence lower bound (ELBO)を最大化することでモデルの学習を行う.ただ,根本的な問題として,目的関数はに関する式であってに関する式にはなってないため,不自然な目的関数になっていることがあげられる.実際先行研究の結果からも,ELBOが良い表現学習をするためには十分でないことがわかっている.そこでここでは観測と潜在表現の相互情報量の側面から良い表現を導出するというのが話の流れ.以前に読んだモントリオール大の論文でも相互情報量を使った表現学習手法を提案していたが論文の時期的にはこちらが先.
相互情報量による表現学習
ここでの目標は確率的なエンコーダーを使って観測データを意味のある潜在表現に変換すること.ただしエンコーダーは同時分布,周辺分布,条件付き分布で表現される.この表現の良し悪しを測る指標として次の相互情報量を用いる.
相互情報量はある確率変数がもう一方の確率変数の情報をどれほど持つかを測る指標で次の様に計算される.
相互情報量はが独立の場合0(エンコーダーはデータの情報を一切持たない状態)になり,またの場合はのエントロピー(エンコーダーはデータの情報の全てを持つ状態)になる.
課題となるところは相互情報量の計算式に真の分布が含まれていて計算が困難なことと,周辺分布を求めるための周辺化の演算の計算が困難なこと.前者は経験分布に置き換えることで,後者は相互情報量のvariational boundsを使うことで回避できる.相互情報量の下界と上界は次の様に定められる.
はいわゆるデコーダーでを近似する役割をし,はmarginalと呼ばれを近似する役割をする.はデータのエントロピーでデータセットの分布具合を測る役割をするが,データセットの操作はできないので定数.はdistortionと呼ばれ,いわゆる再構成の良し悪しを測る項.は比率(rate)と呼ばれ,エンコーダーとmarginalのKLダイバージェンスの平均を表している.データが離散の場合にはは全て非負の値をとる.
はデータを完璧にエンコードしてデコードすることができる(再構成できる)という状態で,これをauto-encoding limitと呼ぶ.そのauto-encoding limitでもっとも小さいはによって与えられる.つまりの状態であり,この状態はであることから下界がタイトであることを表す.逆にがをうまく近似できていない場合,は大きな値をとり,がにしか関係がないため単純にコストが大きくなっている状態を表す.
はがKLダイバージェンスであることからであることを表し,がに独立であることを意味する.したがってエンコーダーはデータの情報を全く表現できておらず,表現学習が失敗していることを表す.このとき,十分強力なデコーダーを用意すればとが独立でも無理やり再構成を行うことができるため,は下界であるデータのエントロピーまで下げることができる.これはの状態を表していて,これをauto-decoding limitと呼ぶ.が固定値でが大きな値をとる場合にはがとしか関係ないため単純にコストが大きくなっている状態を表す.
最後にの状態をとる場合にはの両方が成り立つため相互情報量の下界・上界共にタイトとなる.
仮に,に関して有限のパラメータしか持たない場合,一般的に相互情報量の下界・上界はタイトになることはない.ただし,不等式を最もタイトに抑えるまたはは存在することは保証されているため,を使って最適解を求めることができる.さらに,意図的にの近似精度を下げて固定されたのもとでを増加させることや,の近似精度を下げて固定されたのもとでを増加させることが可能.
-VAEとの関係
を固定とする代わりに,最適なをの関数として考える.すると,ルジャンドル変換により,固定のの下でを解くことで最適なとを求めることができる.目的関数を陽に書き表わせば次の様になる.
これは-VAEの目的関数そのもので,仮にの場合にはVAEで使われていたELBOと一致する.は再構成誤差の項を表し,がKL項を表していることになる.ここではの場合にはが大きくてが小さくなり,の場合にはが大きくてが小さくなる.
まとめ
相互情報量の挟みうちから良いELBOを導出したということ.なんとなく生成モデル(というか表現学習)で相互情報量が注目されているのかなという感じがする.