はじめに

BATCHENSEMBLE: AN ALTERNATIVE APPROACH TO EFFICIENT ENSEMBLE AND LIFELONG LEARNINを読んだのでメモ．

気持ち

簡単にモチベーションを言えば，通常のモデルアンサンブルはアンサンブルする分だけモデルを個別に用意する必要があるが学習にも推論にも時間がかかる．そのため，コストを減らすために一つのモデルに少量のパラメータを追加することでアンサンブルを実現する．

Method

まずベースとなるモデルの各層における重みを $W\in\mathbb{R}^{m\times n}$ とする．ここではいわゆる全結合のニューラルネットを例に説明するが，畳み込み層などへの拡張も簡単にできる．

各層は追加の学習パラメータとして $r_i\in\mathbb{R}^n$ と $s_i\in\mathbb{R}^m$ を持つ．添字 $i$ は $1$ から $M$ までのインデックスで $M$ はアンサンブルの数(モデルの数)を表す．すなわち，通常の $M$ 個のモデルを用意するアンサンブルに対し，提案する手法は各層につき $M$ 個の追加の学習パラメータ $s_i,r_i$ を持つだけとなる．

各層はこの追加パラメータを使って次のように重みを計算する．

$\displaystyle \bar{W}_i=W\circ F_i,\ \text{where}\ F_i=s_ir_i^\top$

すなわちrank-1の行列ともとの重みの要素積で $i$ 番目のモデルの重みを作り出すというもの．これは入力のベクトルを $x_n$ とすれば全結合層の計算を次のように計算を展開できる．

$\displaystyle (W^\top(x_n\circ s_i))\circ r_i$

すなわち層への入力時点で $x_n$ と $s_i$ の要素積をとり，出力で $r_i$ との要素積をとるとかけ，演算量の点で非常にリーズナブルとなる．結果として通常の独立に $M$ 個のモデルを容易するより計算コストが低い．

このモデルはいわゆるlifelong learningのようなタスクが時々刻々と変化していく問題においても，タスク毎に $r_i,s_i$ を用意することで応用が効く．

通常のモデルアンサンブルと比較したときの欠点としては学習時に入力されたバッチサイズの $M$ 倍のサンプルを計算することになるという点．通常のモデルアンサンブルなら $M$ 個のモデルは非同期に勝手に学習すればいいので1モデル分の学習で済むが，提案する方法では $M$ 個のモデルに対し共通する重み $W$ があるため，個々のモデル $s_i,r_i$ 毎に学習するわけにはいかなくなる．ただし，data parallelや分散学習などはできるのでそれはマシーンパワーで解決しろとのこと．