はじめに

Object as Distributionを読んだのでメモ．細かな部分は割愛しているので実装する場合は論文を要参照．

気持ち

従来，物体検出はbounding boxを物体の表現として扱ってきた．最近ではモデルの表現力の向上からMask R-CNNに代表されるsegmentation maskとしての表現や，CornerNetのようなkey pointの表現などが提案されている．

この論文では新たな表現として，2変数正規分布を使った表現を提案．bounding boxでの表現は単純すぎ，pixelレベルでの表現はパラメータが多すぎるという課題がある．2変数正規分布での表現ではパラメータ数は立った5つにも限らず，頑健な物体の表現が可能となる．また分布として表現することでIoUの代わりにKLダイバージェンスを用いた物体間の比較が可能で，NMSなどの処理がより頑健となる．

Rethinking Object Representation

今までの物体表現方法について簡単に長所と短所をまとめる．

Bounding boxはその単純さが実装やアノテーションに関して長所として働くが，物体の表現としては

物体の回転や長方形以外の形状の物体を詳細に表現不能
Bounding boxの形状が物体のメインの部位ではない部分（人でいえば腕など）によって左右される
極度に重なった物体の区別が難しい

という短所がある．一方でmaskを使った表現では物体形状を詳細に記述できるが，パラメータが多いという問題がある．

2変数ガウス分布による物体表現

上記二つの表現方法の中間の表現としてここでは2変数ガウス分布を使った表現を提案．

ある $i$ 番目の物体を2次元空間中の分布 $\mathbb{Z}^{(i)}$ として以下のように表現する．

$\displaystyle \mathbb{Z}^{(i)}\sim\mathcal{N}(\mathbf{\mu}_i,\mathbf{\Sigma}_i)$

この正規分布は $x$ 座標に対する平均と分散 $\mu_{x_i},\sigma_{x_i}$ ， $y$ 座標に対する平均と分散 $\mu_{y_i}, \sigma_{y_i}$ ，相関係数 $\rho_i$ の5つの変数で表現される．

この表現方法の長所として，パラメータ数が少ない，物体の回転を表現可能，物体の部分的な形状の変化に対して表現が頑健，極度に重なった物体をうまく扱うことが可能という点があげられる．

Distinguishing Objects

個々の物体を区別することは検出の取りこぼしを防ぐという点や，現在一般的に使われているNMSなどにおいて重要なこととしてあげられる．

ここでは区別の方法としてKLダイバージェンス $D_\mathrm{KL}(\mathbb{Z}^{(i)}\|\mathbb{Z}^{(j)})$ を使って物体間の違いを測る．ただし，KLダイバージェンスは非可換であるため実践的に以下のような対象な形で計算する．

$\displaystyle D_{\mathrm{KL}^2}(\mathbb{Z}^{(i)}\|\mathbb{Z}^{(j)})=\frac{1}{2}(D_\mathrm{KL}(\mathbb{Z}^{(i)}\|\mathbb{Z}^{(j)})+D_\mathrm{KL}(\mathbb{Z}^{(j)}\|\mathbb{Z}^{(i)}))$