Normalized Cut Loss for Weakly-supervised CNN Segmentation
はじめに
Normalized Cut Loss for Weakly-supervised CNN Segmentationを読んだのでメモ.生成モデル以外の論文読むのが久しぶり.
気持ち
Weakly-supervisedの枠組みにおけるsegmentationの手法は擬似的なマスクを生成してフィットさせていくことが多いが,Cross Entropyのようなロス関数を使うとミスラベルにフィットしてあんまりうまくいかない.なのでそこを解決するような新しいコスト関数が欲しいという感じ.
従来の流れ
Semi-supervisedの枠組みでの一般的なアプローチとしてはラベルに準拠するロスとヒューリスティックスな正則化項を組み合わせたコスト関数の最小化を行う.例えば一つの例としてLaplacian eigenmap regularizerを使ったコスト関数は以下のようなものがある.
上記はラベルと点における出力値を比較する一般的なコスト関数で,第2項目は正則化項ではあらかじめ定義されたpairwise affinitiesを表す.基本的に正則化項は隣接ピクセルの滑らかさを定義するようなもの.
ここからの発展としてMRFなどで知られるグラフの拘束を用いる方法が考えられた.そのような手法では以下のコスト関数が考えられる.
これは言ってしまえば先ほどのコスト関数が離散になったようなもので,で,第二項目のはIverson brackets(indicator functionのようなもの.中身が真なら1で偽なら0)を表す.
ここでは上記のようなコスト関数をCNNのコスト関数に落とし込むことを考える.そのためにはコスト関数を実数に緩和する必要がある.CNNでは一般的にはsoftmaxの出力として得られ.これを使ってコスト関数を書き直すと以下のような2次形式のコスト関数として得られる.
ここででベクトルのk番目(クラスk)の要素のサポートベクトルを表す.このようにMRF等で用いられる関数を実数の枠組みに拡張すればCNNの枠組みでsemi-supervisedの学習のコスト関数として使える.(ただし,論文では"We will study these losses in the future. This paper focuses on normalized cut objective."と言っているので以降あんまり関係ない)
Normalized Cut
Normalized Cutはsegmentationの課題に対して提案された一般的なグラフクラスタリングのアルゴリズムらしい.spectral clustering等と同じくくりの手法でLaplacian Matrixの固有ベクトルに依存した手法になっている.基本的に以下で表される正則化項としてコスト関数に導入される.
はラベルが割り当てられたピクセルの集合を表し,は2値のindicator vector.は度数ベクトルでグラフの各ノードのエッジの本数を表す.細かいことは元論文にと書いてあったのでまた次回読みたい.
提案手法
基本的な戦略は,クロスエントロピーとnormalizing cutを組み合わせたコスト関数を使ってweakly-supervised segmentationをCNNで実現するというもの.
最初に述べたように,擬似ラベルを生成してクロスエントロピーを使うと間違ったラベルにフィットしてしまうため,まずはそのような領域を効果的に無視できるpartial cross entropyを提案する.アイディアはシンプルでクロスエントロピーを以下のように書き換えるだけ.
ここでの時でその他は0になる.すなわち出力の全体をコストの計算に使うのではなくラベルが振り当てられたピクセルのみで学習を行うというもの.実験的にだがこのロスはめちゃくちゃよく機能するらしく,フルラベルを用いた際と比べて85%程度の精度が出るらしい.
次にこのpartial cross entropyに実数空間に拡張したNormalizing Cutの正則化を組み合わせた以下のコスト関数を考える.
Affinity matrix は事前に定義されていてここではガウシアンカーネルを使ったsimilarity graph.
あとはこのコスト関数を使ってクラスごとの前景領域と背景領域を少しだけ与えてあげたデータを用意して学習するだけ. 実験ではネットワークにDeepLabを使ったとのこと. 面白いのはpartial cross entropyを使えばGrabCutを使ったアノテーションによる学習より線描きしたアノテーションの方がよく動作するということ.
まとめ
Weakly-supervisedと考えると出力結果が衝撃的な美しさ.これだけできるならもうdenseなアノテーションはほとんどいらないんじゃないかという気持ちになる.