はじめに

PointAugment: an Auto-Augmentation Framework for Point Cloud Classificationを呼んだのでメモ． Point Cloudに対するAutoAugment．ただAutoAugmentというが，originalのAutoAugmentとは大きく異なり，フレームワークとしては

データ毎にdata augmentationを生成
data augmentationはニューラルネットで実行
モデルの学習とaugmentationをadversarial trainingの要領で同時最適化

となる. 前提として点群の分類問題を扱うものとする．

Overview

PointAugmentはaugmentor $\mathcal{A}$ とclassifier $\mathcal{C}$ の二つのネットワークから構成される. $M$ 個の学習データ $\{\mathcal{P}_i\}_{i=1}^M$ が与えられた際， $\mathcal{C}$ は $\mathcal{P}_i$ で通常通り学習されるとともに， $\mathcal{P}_i$ を $\mathcal{A}$ に入力して得られた出力 $\mathcal{P}^\prime_i$ でも学習される. 同時に， $\mathcal{P}^\prime_i$ に対する $\mathcal{C}$ の出力を受けて $\mathcal{A}$ のパラメータも更新される.

Method

Augmentor $\mathcal{A}$ は3D点群のshapeに関するaugmentation（回転など）と点ごとの変換に関するaugmentation（ノイズの加算など）それぞれを扱う．そのためaugmentor（PointNet構造）は入力を $(x,y,z)$ 座標を値として持つ $N$ 点の点群とすると， $3\times3$ の行列 $\mathcal{M}$ と $N\times 3$ の行列 $\mathcal{D}$ を出力する. その出力を使って入力の点群 $\mathcal{P}_i$ を $\mathcal{P}\cdot\mathcal{M}+\mathcal{D}$ として変換し， $\mathcal{P}^\prime$ を生成する. ただし，augmentationに確率的な振る舞いを導入するため， $\mathcal{M},\mathcal{D}$ を出力する全結合層に点群の特徴量だけでなくnoiseも入力する（詳細はFig. 4）.

ここでの問題はaugmentorの学習で，この論文ではaugmentorは(i)元の点群 $\mathcal{P}$ より難しいサンプル，すなわち $L(\mathcal{P}^\prime)\gt L(\mathcal{P})$ を満たす $\mathcal{P}^\prime$ 生成すべき（ただし $L(\cdot)$ はクロスエントロピー），(ii) $\mathcal{P}^\prime$ は元の点群の形から逸脱しない物であるべきという２点を満たすべきとしている.

まず(i)を満たすため，augmentorの目的関数は次のようになる.

$\displaystyle \mathcal{L}_\mathcal{A}=\exp[-(L(\mathcal{P}^\prime)-L(\mathcal{P}))]$

これは1以下の値を取る場合に $L(\mathcal{P}^\prime)\gt L(\mathcal{P})$ を満たす. なので $\mathcal{L}_\mathcal{A}$ を最小化するようにaugmentorを学習すれば(i)を満たすサンプルを生成することが期待される. 一方で， $\mathcal{L}_\mathcal{A}\rightarrow0$ のときには $L(\mathcal{P}^\prime)-L(\mathcal{P})\rightarrow\infty$ となり，このような場合 $\mathcal{P}^\prime$ はもはや(ii)を満たさない点群になっていることが予想される. そのため $\xi= L(\mathcal{P}^\prime)-L(\mathcal{P})$ を小さくするように次のように $\mathcal{L}_\mathcal{A}$ を非負のdynamic parameter $\rho$ を使って定義し直す.

$\displaystyle \mathcal{L}_\mathcal{A}=|1.0-\exp[(L(\mathcal{P}^\prime)-\rho L(\mathcal{P}))]|$

このとき， $\xi$ の上界は $\xi= L(\mathcal{P}^\prime)-L(\mathcal{P})\leq(\rho-1)L(\mathcal{P})=\xi_\mathcal{O}$ となる.

Augmentorの学習時にはclassifierは固定となるため，この上界は $\rho$ にのみ依存する. 通常，学習初期はclassifierの挙動がセンシティブであるため， $\mathcal{P}^\prime$ が難しすぎないように注意を払う必要がある. そのため， $\rho$ を次のように設計する.

$\displaystyle \rho=\max\left(1,\exp\left(\sum_{c=1}^K\hat{y}_c\cdot y_c\right)\right)$

$\hat{y}_c$ は真のonehotラベルで， $y_c$ は $\mathcal{P}$ に対するclassifierの出力. これは，分類が容易な簡単なサンプルほど $\rho$ が大きくなり，難しい $\mathcal{P}^\prime$ を生成することを目的としている.

最終的なaugmentorの損失は次のようになる. 　 $\displaystyle \mathcal{L}_\mathcal{A}=L(\mathcal{P}^\prime)+\lambda|1.0-\exp(L(\mathcal{P}^\prime)-\rho L(\mathcal{P}))|$

$\lambda$ はハイパーパラメータ. $L(\mathcal{P}^\prime)$ はaugmentorによって作り出されたサンプルが(ii)を満たすことをencourageする項で， $\lambda$ の大きさによってどれだけ重要視するかが変わる. 実験では $\lambda=1$ とした.