はじめに

半教師ありの勉強を兼ねてRealistic Evaluation of Deep Semi-Supervised Learning AlgorithmsをPyTorchで実装した．コードはgithubに公開してます．

諸々

基本的に著者らが公開している実装を参考にPyTorchで実装したが，まだ一部再現しきれていない．論文に書かれていることと著者らの実装で異なる部分がいくつかあって，再現するのにちょっと苦労した（している）．というかベースラインを揃えるというくらいなら嘘偽りなく論文を書いてほしいところ．やっぱり論文を書いてる研究者や研究機関と論文の質は関係ないなというところ．

論文と実装の大きな違いは，

L1/L2正則化がない
VATのLossの計算に使われるKLがノイズ計算時のKLと逆

の2点．特に2番目の方は酷い話で，そもそもVATは $r_{adv}=\mathrm{argmax}_{r}KL(P(y|x)||P(y|x+r))$ という定義の下，ノイズ $r_{adv}$ を計算しており，ロスも $LDS=KL(P(y|x)||P(y|x+r_{adv}))$ と計算するのが自然，というかVATの論文でも実装でもそうなっている．これに対し，今回の実装では $LDS=KL(P(y|x+r_{adv})||P(y|x))$ と計算しており，当然githubでissueがたてられていたが，著者の回答は"その方がうまく動いたから"というもの．これに対する質問者の返答は，これはロスをハイパーパラメータとしているのと同じだから良くないというもの．間違いなくその通りで，論文読んだ当初はいい論文だと思ったが，これではちょっと酷いと言わざるを得ない．上記のissueはこちら．