はじめに

Unsupervised Part-Based Disentangling of Object Shape and Appearanceを読んだのでメモ．

気持ち

教師なしで物体（主に人）のshapeとappearanceに関する表現を獲得しようというもの．このような表現を獲得することでポーズを変えたり見えの一部を変更（着せ替えなど）が可能になる．

手法

物体のappearanceとshapeは独立かつ，shapeは関節（part）ごとに独立という考えに基づいて，入力 $x$ に関するpartごとのappearanceの特徴ベクトル $\alpha_i(x)\in\mathbb{R}^n$ とpart activation map $\sigma_i(x):\Lambda\rightarrow\mathbb{R}^+$ の獲得を目標とする．基本的なアプローチは，上記の考え方を取り入れた自己符号化器によって表現を学習する．

モデルの構成としてはpart shapeを出力するモデル（hourglass network）とappearanceを出力するモデル（hourglass network?）と，二つを入力として元の画像を復元するモデル（U-Net）の3つからなる．part shapeはappearance不変のため，appearanceを変えた入力 $a(x)$ を，part appearanceはpart shape不変なため空間的な変換（アフィン変換など）をした入力 $x\circ s$ を入力として，それぞれpart shape $\sigma_i(a(x))$ ，part appearances $\alpha_i(x\circ s)$ を出力する．decoder（復元モデル）は推定されたpart shapeとpart appearanceを入力として元画像 $x$ （appearanceもshapeも変更していない画像）を復元する．

損失関数は $x$ と復元された画像 $\hat{x}$ のL1誤差として以下のように定義される．

$\displaystyle \mathcal{L}_{rec}=\left\|x-D\left(\left[\alpha_i(x\circ s),\sigma_i(a(x))\right]_{i=1,\dots}\right)\right\|_1$

また，part shapeはdeformationに関して不変であってほしいため， $\sigma_i(a(x))$ と $\sigma_i(x\circ s)$ 間に $\sigma_i(x\circ s)[u]-\sigma_i(x)[s(u)]=0$ という関係が成り立つことが好ましい（ただし， $u$ は画像上の画素の位置を表す）．ただし，これを単純に制約として与えるのは実験的に不安定だったため，次のように修正して損失とした．

$\displaystyle \mathcal{L}_{equiv}=\sum_i\lambda_\mu\|\mu[\sigma_i(x\circ s)]-\mu[\sigma_i(a(x))\circ s]\|_2+\lambda_\Sigma\|\Sigma[\sigma_i(x\circ s)]-\Sigma[\sigma_i(a(x))\circ s]\|_1$