Intriguing properties of neural networksを読んだのでメモ
はじめに
Intriguing properties of neural networksを読んだのでメモ.Adversarial examplesについて少し勉強してみたいと思い読んでみた.
気持ち
Deep neural networks(DNN)における二つの非直感的な振る舞いについて解析した論文.ここでの二つの非直感的な振る舞いとは,(1)DNNの作る特徴ベクトル(識別層への入力)は,個々の値は意味を持たずベクトルが作る空間が意味を持つ,(2)人が認識できない程度の計算された摂動(adversarial perturbation)を入力に加えることでDNNの出力を変えることができる,と言うもの.特に,二つ目の振る舞いに関しては,学習済みモデルと学習データから計算された摂動がテストデータや,データセットの異なる部分集合で学習されたモデルに対しても有効に働くと言う.
Units of:
を入力画像,をDNNのある層の出力とする.DNNを用いない画像認識は色ヒストグラムや局所勾配情報などの特徴に依存しており,これらの特徴量は各次元ごとに意味のある値を保持している.DNNを用いた画像認識においても同様の解析を試みており,いくつかの研究ではhidden unitの活性値を意味のある特徴として解釈している.
unit毎に意味付けを行う場合では画像の認識方法として次のような定式化が可能である.
は学習データに用いていない画像の集合で,はhidden unitに対応する自然な基底ベクトルの番目の要素.この論文の実験においてランダムな方向は意味的に関連する画像を得ることが示された.
この結果はに対してランダムな基底よりも自然な基底が必ずしも優れているわけではないと言うことを示唆しており,DNNがdisentangleされた情報を空間に持っているという考えにつながる.
この主張をMNISTで学習されたCNNとImageNetで学習されたAlexNetを使って評価する.自然な基底とランダム基底どちらを用いた場合でも画像の類似性をよく捉えていることがわかる(論文のFigure 1から4).
Blind Spots in Neural Networks
前述の解析ではDNNが(真の)入力分布の特定の部分集合に対して普遍性を獲得することが示されたが,補集合に対する振る舞いの説明は行われていない.ここではデータ分布のほぼ全ての点の近傍においてが非直感的な振る舞いをすることを示す.
一般的にCNNは強力な非線形関数であり,入力空間の非局所的な一般化されたpriorをエンコードするということが主張されている.言い換えれば,近傍に学習データを含まない入力空間の領域に低い確率を与えることができる.このような空間は,構造やラベル両方において共通するがピクセル空間において遠い,同一物体の異なる視点の画像などを表現可能と言える.
逆に上記の考え方は暗黙に入力空間において局所的には近い値を出力することを想定している.すなわち十分小さい半径において,学習データに対し摂動を与えたデータの出力が正しいクラスに高い確率を与えることが期待される.これはcomputer visionの課題に対しては正当な考え方で,小さな摂動の与えれれたデータはデータ自身の所属クラスを変えない.しかし,この論文ではこの仮定(出力が入力の変化に対して滑らかに変わるというsmoothness assumption)は成り立たないという結果を出した.
ここでは出力を変化させる人が認識できないような小さな摂動を加えた入力(adversarial examples)を生成する方法を示す.Adversarial examplesはDNNによって表現される入力空間におけるmanifold内の穴(pockets)を表現していると言える.
Formal description
を入力空間から離散のラベルへの写像とする.この写像は連続な損失関数を持つ.ここでは入力画像と(の真のラベルとは異なる)ターゲットラベルが与えられた時,以下の最小化問題を解くことでadversarial examplesを生成する.
はによってとして分類されるにもっとも近いサンプルを期待する.これはである限りは非自明である.一般的にこの最小化問題を計算するのは困難であるため,ここではbox-constrained L-BFGSによって近似する.具体的にはを満たすように以下の問題をline-searchで解く.
この問題は凸であるため厳密な解が存在するがDNNは一般的に非凸であるため最終的には近似解となる.
Experimental results
実験では次のような面白い結果が得られたとのこと.(1)実験に用いた全てのモデルと全てのサンプルにおいて元の画像と区別が難しい(しかし異なるクラスに識別される)adversarial examplesを生成,(2)多くのadversarial examplesは,異なるハイパーパラメータ(層の数や正則化,初期の重み)でスクラッチから学習されたモデルで誤識別を誘発し,(3)異なるデータセットの部分集合でスクラッチから学習されたモデルでも誤識別を引き起こす.
これらの結果はadversarial examplesがuniversalでありoverfittingによるものではないことを示唆する.一方でadversarial examplesを学習時に利用することでモデルの汎化性能を向上可能かもしれない.実際,MNISTを使った予備実験においてはerror rateを改善したとのこと.
Spectral Analysis of Unstability
前の実験でDNNの不安定性が実証できたので,ここではDNNの各層のスペクトルを図ることで安定性の測定と制御をする簡単な方法を述べる.
ここではを入力に対応する学習されたパラメータを持つ層のネットワークの出力を示すとし,次のように記述する.
はから層への写像を表し,ReLUを使った変換とする.の不安定性は上位の層のリプシッツ定数を調べることで説明可能で,定数は次のように定義される.
結果としてモデルはを満たす.をの作用素ノルムとする.ReLUをとすると,全てのはを満たすため
となり,からが得られる.一方でmax-pool層はを満たす.また,がcontrast-normalization layerであった場合には次のようになる.
ネットワークの不安定性の度合いは各全結合もしくは畳み込み層の作用素ノルムを計算することで得られる.全結合の場合には単純に重み行列の最大特異値として計算が可能.畳み込み層の場合は若干複雑で,ここでは一般的な畳み込み層と同様を4次元テンソルとした場合を考える.を入力チャネル,を出力チャネル,カーネルサイズのストライドとした時畳み込みを次のように記述する.
は入力の番目のチャネルで,は入力の番目のチャネルに一致する次元と番目の出力チャネルに対応するカーネルの重みを表す.パーセバルの定理から作用素ノルムは次のように与えられる.
は行列で各行は
となり,この時のはの2次元フーリエ変換
を表す.実際にImageNetで学習されたAlexNetのスペクトルを調べると第1層目から摂動に対する不安定性が現れていることがわかる(論文のTable 5).
まとめ
この論文ではadversarial examplesの存在とその汎用性が実験的に証明され,各層のスペクトルを解析することで脆弱性を図ることができるという点を示した.