X-means: Extending K-means with Efficient Estimation of the Number of Clusters

\[ \def\BIC{\mathrm{BIC}} \def\Pr{\mathop{\mathrm{Pr}}} \]

その他の参考文献

Intro

K-means アルゴリズムはクラスタ数 \(k\) を自分で考えないといけない. 提案手法は BIC (または AIC など) を指標にして再帰的に k-means を適用することで最適なクラスタ数を決定する.

X-means

アルゴリズム

ベイズ情報量規準 (BIC)

これについて BIC は次の式で定まる.

\[\BIC = \ell(D) - \frac{p}{2} \log |D|\]

ここで \(\ell\) は空間を \(p\) 変量の正規分布を仮定した時の対数尤度である.

\[\ell(D) = \log \prod_{x \in D} P(x) = \sum_{i=1}^k \sum_{x \in D_i} \left[ - \log ( \sqrt{2 \pi} \sigma ^p ) - \frac{1}{2 \sigma^2} | x - \mu_i |^2 + \log \frac{R_i}{R} \right] \]

\(\sigma\) は全体の分散 (the variance under the identical spherical Gaussian assumption) であるが、

\[\sigma^2 = \frac{1}{R - k} \sum_{i=1}^k \sum_{x \in D_i} (x - \mu_i)^2\]

以上が今回の BIC の定義.