はじめに

気持ち

バッチサイズに左右されない新しい正規化層の提案．BatchNormはミニバッチサイズが小さい時にうまく機能しないことはよく知られていて，代替となるようなバッチサイズに依存しな様々な正規化層は提案されて来たもののどれもいまいちというのが現状．

BatchNormがうまくいく理由として，元々は内部共変量シフトを抑えるためとして提案されたが，近年ではloss landscapeを滑らかにするためという説が提唱されている．そのためこの論文ではloss landscapeを滑らかにするような方法を提案するというもの．

Weight Standardization

主な考え方としては，畳み込み層の重みを標準化することで勾配にリプシッツ定数を抑える役割を与え，loss landscapeを滑らかにするというもの．リプシッツ定数は勾配の上界と言えるため，その定数が小さくなるということはlossのlandscapeに崖のような急勾配が現れなくなる，すなわち滑らかになると考えられるというもの．

畳み込み層による変換は，バイアス項を除いて次のように表現できる． $\displaystyle \mathbf{y}+\hat{\mathbf{W}}\ast\mathbf{x}$

ここで $\ast$ は畳み込みの演算子で， $\hat{\mathbf{W}}\mathbb{R}^{O\times I}$ は重みを表す．ただし， $O,I$ はそれぞれ出力のチャネル数と，入力のチャネル数とカーネルサイズをかけたもの，すなわち $I=C_{in}\times\mathrm{Kernel\ Size}$ を表す．ここで重み $\hat{\mathbf{W}}$ は次のような $\mathbf{W}$ の関数として表されるものとする．

$\displaystyle \hat{\mathbf{W}}=\left[\hat{\mathbf{W}}_{i,j}|\hat{\mathbf{W}}_{i,j}=\frac{\mathbf{W}_{i,j}-\mu_{\mathbf{W}_{i.\cdot}}}{\sigma_{\mathbf{W}_{i,\cdot}}+\epsilon}\right]\\$

ただし， $\mu_{\mathbf{W}_{i,\cdot}},\ \sigma_{\mathbf{W}_{i,\cdot}}$ はそれぞれ重みの $I$ 軸に対する平均と標準偏差を表す．この重みの変換をweight standardization $\hat{\mathbf{W}}=\mathrm{WS}(\mathbf{W})$ として定義する．