はじめに

Clustering with Deep Learning: Taxonomy and New Methodsを読んだのでメモ．

気持ち

DNNベースのクラスタリング手法について体系的にまとめて定式化することで，システマティックに新しいクラスタリングの方法を作れる様にしようというもの．

モデル構造

多くのDNNのクラスタリング手法は入力データクラスタリングしやすい表現（潜在表現）に落とし込むための"main branch"が存在する．そのためのモデルには従来以下の5つのモデルが使われる．

Multilayer Perceptron (MLP)
Convolutional Neural Network (CNN)
Deep Belief Network (DBN)
Generative Adversarial Network (GAN)
Variational Autoencoder (VAE)

各々の説明は割愛．

潜在表現

クラスタリングしやすい表現を得る際の方法としてmain branchの最後の表現のみを得る場合と複数の層から得る場合の2種類に分けられる．

One layer

　利点としては次元が低いこと．主に最終層の表現が使われる．

Several layers

　利点としては表現がリッチであること．

Non-clustering loss

Non-clustering lossはクラスタリングとは関係のない損失項で正則化項の様な役割として用いられる．以下の選択肢がある．

No non-clustering loss

Non-clustering lossを使わない（正則化なし）．局所解にハマりやすいという点が指摘されてるがたまにいい結果をもたらす場合もある．

Autoencoder reconstruction loss

Decoderを使った再構成誤差．入力と再構成されたデータ間の距離を損失項とし一般的には平均2乗誤差．再構成に必要なデータの重要な情報を残した潜在表現を得られることが保証される．

Self-Augmentation Loss

元のデータとaugmentationされたデータ間の表現の類似性を保証する．次のような関数で表される．

$\displaystyle L=-\frac{1}{N}\sum_Ns(f(x),f(T(x)))$

$x$ が元のデータで $T$ がaugmentationの関数． $f(x)$ は潜在表現への変換で $s$ は類似度でcross-entropy等．

Other tasks

学習データに関する追加情報の項．クラスや属性ラベルが使える場合など．

Clustering loss

クラスタリング手法に依存した損失項．一番重要な部分で以下のような様々な方法が存在．

No clustering loss

Non-clustering lossのみを使う方法．次元圧縮等の目的で使われる．基本的にclustering lossがあった方が良い結果となる．

k-Means loss

K-Meansしやすい表現を獲得するための損失．データ点がクラスタ中心の周りに分布するような表現を得る方法で次のような損失関数で定義．

$\displaystyle L(\theta)=\sum_{i=1}^N\sum_{k=1}^Ks_{ik}| z_i-\mu_k|^2$

$z_i$ はデータ点の潜在表現で $\mu_k$ はクラスタ中心． $s_{ik}$ は所属クラスタを表すboolean（普通はone-hot?）．

Cluster assignment hardening

データ点をクラスタにソフトに割り当てる損失．1例として次のstudentの $t$ 分布を元にした関数を使ってソフトな割り当てを行う．

$\displaystyle q_{ij}=\frac{(1+| z_i+\mu_j|^2/\nu)^{-\frac{\nu+1}{2}}}{\sum_{j'}(1+| z_i+\mu_{j'}|^2/\nu)^{-\frac{\nu+1}{2}}}$

$\nu$ はハイパーパラメータの定数．データ点の潜在表現とクラスタ中心間の正規化された類似度となっていてクラスタの所属確率としてみなせる．Cluster assignment harging lossは上記の確率が一つのクラスタのみに大きくなるように強いる損失で，そのために次の補助分布を導入する．