Unsupervised Object Segmentation by Redrawingを読んだのでメモ
はじめに
Unsupervised Object Segmentation by Redrawingを読んだのでメモ.タイトルの通りunsupervisedなobject segmentationの論文.
Method
セグメンテーションのプロセスを定義する.は画像が与えられた時,各ピクセルに個のラベルのどれかを割り当てる関数とする.ここでの課題はが与えられた時に正しい分割を行うを見つけること.ここでは教師ありと違い,分割された各領域が満たすべき性質を定義し,その定義に従って分割する必要がある.今回はこれをエネルギー関数を定義することによって実現する.
Generative Process
今回は画像は次の3つの生成過程に従って作られると考える.
- composition step : 画像中の異なる領域を定義
- drawing step : 各領域毎に独立にピクセルの生成
- assembling step : 領域を統合して画像を生成
自分の理解ではGANでよくやられるラベルからの画像生成とほぼ同じものを仮定している.
まず個の物体と背景,すなわち個の領域からなる画像を考える.を番目の物体に対応する2値のマスク(すなわちsegment)とし,仮に座標のピクセルが番目の物体に所属する場合となる.各ピクセルはただ一つの領域に所属することを仮定するためが成り立つ.
各物体のピクセルの値をとすると,画像はマスクとピクセル値の要素積で与えられる.
ここまで定義した文字を使って生成過程を表現すると,
- composition step : マスクの事前分布に従ってマスクを生成
- drwaing step : に従って物体領域毎に独立にピクセル値を選択
- assembling step : マスクとピクセル値の要素積により画像を生成
From Generative Process to Object Segmentation
ここからが手法の本題の話.目的は物体のマスクを得ることで画像を生成することではないので,ここではを通して入力画像から直接マスクを生成することを考える.すなわち生成過程としてはcomposition stepがと書き換わる.
ここでは生成過程に従って得られた出力画像が学習データの分布に一致するようにするためGANの学習法を用いてを学習する.をdiscriminatorとし,をgeneratorとする.generatorは入力としてととから独立にサンプリングされたベクトルの集合が与えられる.今回は異なる領域のピクセル値は独立であることを仮定しているためgeneratorは個に分解される,.最終的に生成過程は次のようになる.
- composition step :
- drawing step :
- assembling step :
は微分可能であるため勾配ベースで次の目的関数の学習が可能.今回はhinge versionのadversarial lossを使うとのこと.
単純にこの学習をした場合,二つの理由から失敗する可能性がある.一つ目はに対して意味のあるセグメントを抽出しない可能性がある.というのもを完全に無視して画像を生成可能であるため.二つ目はが自明な解にたどり着く,すなわち単一の領域のみに分割(=分割しない)という結果を返してしまう可能性があるということ.なのでここにさらなる制約を追加する.
Constraining mask extraction by redrawing a single region
一つ目の制約はモデルが意味のある領域を抽出することを強いるもので,異なる物体のピクセルは独立に生成されるという仮定を利用したもの.やり方は単純である一つの領域を除いた全ての領域はピクセル値を生成するのではなく元画像のピクセル値を使うというもの.すなわち生成過程のdrawing stepをと修正する.は一様分布からランダムにサンプリングされる.
Conservation of Region Information
二つ目の制約は潜在ベクトルから生成された領域が与えられた時,最終的な画像がに関する情報を含んでいることを強いるもので,が空領域を抽出することを防ぐ.実際が空,すなわち全てのに関しての場合の情報は生成された画像に含まれない.この制約はInfoGANの相互情報量の最大化と同じ方法で実現される.
をが与えられた時の値を推論する関数とする.上記二つの制約を踏まえた損失関数は次のようになる.
は固定のハイパーパラメータ.
まとめ
基本的に前景背景の分割で実験しているため複数物体のセグメンテーションは難しそう.実験データも分割しやすそうなものが多いのでここまで高級なモデルを使う効果のほどはなんとも言えないところ.