Unsupervised Part-Based Disentangling of Object Shape and Appearanceを読んだのでメモ.
はじめに
Unsupervised Part-Based Disentangling of Object Shape and Appearanceを読んだのでメモ.
気持ち
教師なしで物体(主に人)のshapeとappearanceに関する表現を獲得しようというもの.このような表現を獲得することでポーズを変えたり見えの一部を変更(着せ替えなど)が可能になる.
手法
物体のappearanceとshapeは独立かつ,shapeは関節(part)ごとに独立という考えに基づいて,入力に関するpartごとのappearanceの特徴ベクトルとpart activation mapの獲得を目標とする.基本的なアプローチは,上記の考え方を取り入れた自己符号化器によって表現を学習する.
モデルの構成としてはpart shapeを出力するモデル(hourglass network)とappearanceを出力するモデル(hourglass network?)と,二つを入力として元の画像を復元するモデル(U-Net)の3つからなる.part shapeはappearance不変のため,appearanceを変えた入力を,part appearanceはpart shape不変なため空間的な変換(アフィン変換など)をした入力を入力として,それぞれpart shape,part appearancesを出力する.decoder(復元モデル)は推定されたpart shapeとpart appearanceを入力として元画像(appearanceもshapeも変更していない画像)を復元する.
損失関数はと復元された画像のL1誤差として以下のように定義される.
また,part shapeはdeformationに関して不変であってほしいため,と間にという関係が成り立つことが好ましい(ただし,は画像上の画素の位置を表す).ただし,これを単純に制約として与えるのは実験的に不安定だったため,次のように修正して損失とした.
ただし,はの座標における平均と共分散.要は,単純に座標毎に一致する様に制約を課すのではなく,大まかな位置があってれば良しとしたいということ.
その他decoderに入力する際のやの計算方法などあるが今回は割愛.
まとめ
教師なしの割に綺麗に推定できている印象.GANなどでposeを条件として色々なappearanceの画像を生成するような研究があったが,単純な回帰問題の学習でほぼ似たようなことができている.特に,pose推定器など使わず真に教師なしに人物のpartが推定できているのは驚き.