Unsupervised Part-Based Disentangling of Object Shape and Appearanceを読んだのでメモ.
はじめに
Unsupervised Part-Based Disentangling of Object Shape and Appearanceを読んだのでメモ.
気持ち
教師なしで物体(主に人)のshapeとappearanceに関する表現を獲得しようというもの.このような表現を獲得することでポーズを変えたり見えの一部を変更(着せ替えなど)が可能になる.
手法
物体のappearanceとshapeは独立かつ,shapeは関節(part)ごとに独立という考えに基づいて,入力に関するpartごとのappearanceの特徴ベクトル
とpart activation map
の獲得を目標とする.基本的なアプローチは,上記の考え方を取り入れた自己符号化器によって表現を学習する.
モデルの構成としてはpart shapeを出力するモデル(hourglass network)とappearanceを出力するモデル(hourglass network?)と,二つを入力として元の画像を復元するモデル(U-Net)の3つからなる.part shapeはappearance不変のため,appearanceを変えた入力を,part appearanceはpart shape不変なため空間的な変換(アフィン変換など)をした入力
を入力として,それぞれpart shape
,part appearances
を出力する.decoder(復元モデル)は推定されたpart shapeとpart appearanceを入力として元画像
(appearanceもshapeも変更していない画像)を復元する.
損失関数はと復元された画像
のL1誤差として以下のように定義される.
また,part shapeはdeformationに関して不変であってほしいため,と
間に
という関係が成り立つことが好ましい(ただし,
は画像上の画素の位置を表す).ただし,これを単純に制約として与えるのは実験的に不安定だったため,次のように修正して損失とした.
ただし,は
の座標における平均と共分散.要は,単純に座標毎に一致する様に制約を課すのではなく,大まかな位置があってれば良しとしたいということ.
その他decoderに入力する際のや
の計算方法などあるが今回は割愛.
まとめ
教師なしの割に綺麗に推定できている印象.GANなどでposeを条件として色々なappearanceの画像を生成するような研究があったが,単純な回帰問題の学習でほぼ似たようなことができている.特に,pose推定器など使わず真に教師なしに人物のpartが推定できているのは驚き.