LEARNING LATENT PERMUTATIONS WITH GUMBEL-SINKHORN NETWORKSを読んだのでメモ
はじめに
LEARNING LATENT PERMUTATIONS WITH GUMBEL-SINKHORN NETWORKSを読んだのでメモ. Permutationやmatchingの問題をsinkhorn normalizationを利用してend-to-endに解くモデルを提案. Sinkhorn iterationは以前ブログにまとめたDeep Learning on Graph Matchingの論文でも利用されていた,二重確率行列(行,もしくは列の和が1になる行列)を生成するテクニック. これにカテゴリカル分布から微分可能な形でサンプリングするテクニックであるgumbel softmax(またはconcrete distribution)を組み合わせることでpermutation matrixの潜在表現を取得可能にした. 従来と異なる点として,permutationを教師ありで学習するのではなく,潜在表現として教師なしで獲得できる.
簡単に実装してみた.
Sinkhorn operator
従来,onehot表現の緩和として,温度パラメータを導入したsoftmax が提案されていて,温度がのとき(確率がuniformの場合を除き)onehotベクトルとなる.ここではこの考え方を二重確率行列へと応用する.
そもそも二重確率行列へのは正規化はかなり難しい問題で,ここではsinkhorn normalizationというよく知られた方法を利用する. アルゴリズム自体は単純で,各要素が非負の行列に対し,行方向,列方向の正規化を繰り返すことで二重確率行列へと収束するというもの. ここでは任意の正方行列に対し,sinkhorn normalizationを次のように定義する.
とはそれぞれ,行方向,列方向の正規化を意味する. ただし,を要素毎の割り算とし,を各要素が1の次元列ベクトルとする. はSiknkhorn(1964)によって二重確率行列の集合(Birkhoff polytope)に属するが証明されており,ここではこの集合をとする.
Permutationの問題はカテゴリを選ぶのと同様に最大化問題として書くことができ,permutation matrixの集合をとし,行列のフロベニウス内積をとすると,次のように表現できる.
ここでをmatching operatorと呼ぶ. このmatching operator とsinkhorn normalizationの極限はの関係があるというのがこの論文の主張. すなわち,次の定理が成り立つということが主張.
Theorem 1.
For a doubly-stochastic matrix , define its entropy as . Then, one has,
Now, assume also the entries of are drawn independently from a distribution that is absolutely continuous with respect to the Lebesgue measure in . Then, almost surely, the following convergence holds:
Proof
証明のための細かな定義から. まずとを次のように定義する.
それぞれ離散か連続かの違い. また,assingment problemを上と上とでそれぞれ次のように定義する.
基本的にが成り立つ. 以下のLemma 1からLemma 3を利用してTheorem 1を証明する. 各命題の証明は関連文献等が多いのでここでは省略する.
Lemma 1
この最大化問題はユニークな解が存在する.
Lemma 2
Suppose the entries of are drawn independently from a distribution that is absolutely continuous with respect to the Lebesgue measure in . Then, almost surely, is a unique permutation matrix.
Lemma 3
Call the solution to the problem, . Under the assumptions of Lemma 2, when if .
Theorem 1の最初の部分はLemma 1そのもの.極限での収束はLemma 3から得られる.
Sinkhorn Networks
ここではpermutationの潜在表現を学習するsinkhorn networkの最小構成について述べる. まず真の順列で並んだデータとランダムに並べ替えられたのペアが与えられたとする. ここではあるpermutation行列によっての関係が成り立つとする.ただし,はノイズ項で,はとをパラメータとしたからへの写像. よって,以下の最小化問題を考える.
の表現としてここではニューラルネットワークを考える. ネットワークはを入力とし,を出力する. この時はニューラルネットの重みとバイアス項の集合として定義される. ただし,はネットワークの層のインデックスを表す. 最終的なpermuttation は割り当て問題の解として得られるが,は微分が不可能であるため,割り当て問題のソルバの代わりにsinkhorn normalization で置き換え,微分可能なものとして定義する. これにより,誤差逆伝播を用いてend-to-endにを学習することが可能となる.
Permutation equivariance
ここでは問題の性質上,ネットワークはのpermutation に対して次の関係を満たすことが好ましい.
これはネットワークの出力とpermutation行列にという関係(すなわち入力の番目の要素が出力の行目にのみ影響を与える)を満たすようにすればよい. なので,ネットワークは与えられた集合の要素を独立に扱い対応するpermutation行列の各行を出力し,全ての行をstackすることでを作る. より具体的には論文のFigure 1を参照.
Probabilistic aspects
Sinkhorn networkの確率モデルとしての見方を与える. ポテンシャル関数での離散集合上の分布は
として表現される. Gumbel max trickによりこの分布からのサンプルはi.i.d.のガンベルノイズを用いてとして計算できる.
一方で,今回の問題では集合の大きさがとなっているため扱いにくい. なのでのように分解し,さらにrank-oneのノイズを使うことで扱いやすい形に変える.
permutation はをパラメータとするlinear potential のGumbel-Matching分布に従うものとする. がi.i.d.のGumbel noiseとした時とすることができる. ただ,Gumbel-Matching distributionからのサンプリングは微分不可能であるため,ニューラルネットとの相性が悪い. ここでは新たにパラメータと温度を持つGumbel-Sinkhorn distributionを考える. すなわち.
カテゴリカル分布のGumbel-softmax等による連続緩和と違い,Gumbel-MatchingとGumbel-Sinkhorn distributionは扱いにくい. 一方で近年提案されたlikelihood-free methodsを使えば推定することは不可能ではない. 観測と潜在変数を考える. ただし,はpermutationではその他の変数とする. この時事後分布を以下のELBOの最大化によって近似する方法を考える.
ここでは平均場近似により事前分布と変分事後分布がのように分解可能であることを仮定する. これによりを無視することができ一般性を失うことなくであることを仮定できる.
ここでははGumbel-Matching分布に従うが,微分可能にするためGumbel-Sinkhorn分布へ置き換える. この時,事前分布は,変分事後分布はとする.
の陽な表現がないため,ELBOのKL項を計算することができない. そこでreparameterizationにより,とし,KL項をとして計算をする. このKLの具体的計算はAppendixを参照.
まとめ
腑に落ちない点はいくつかあるが,permutationに対する確率モデルとして非常に面白かった.