k-means

クラスタリング法は教師なし学習の方法の一つである.クラスタリングの目的はラベルがないデータのパターンを探す.クラスタリング法には色んなアルゴリズムがある,赤野の研究で用いられる方法はK-means法である. k-means法のアルゴリズムを紹介する.まずは人手でクラスター数を決める.クラスターの数をKで示す.データを ${x_1,x_2,x_3...x_n}$で示す,クラスターは ${c_1,c_2,c_3...c_k}$で示す.クラスターの中心ベクトルを ${\mu_1,\mu_2,\mu_3.....\mu_k}$で示す.手順を以下で示す.

手順1  ランダムでK個のベクトルを選ぶ.このK個のベクトルをk個のクラスターの中心ベクトル$\mu$として扱う.
手順2  あるデータxとK個のクラスターの中心ベクトルとの距離(ユークリッド距離)を計算する.データxを距離が最も近いクラスターに分類する.
手順3  クラスターの中心ベクトルを更新する.更新方法はクラスターにあるすべての単語ベクトルのelementwise-mean[*]をこのクラスターの中心ベクトル$\mu$として扱う.
手順4  手順2と手順3をすべでのデータを1個つず用いて繰り返す.

k-means法の結果の例を図[*]で示す.

Figure: k-means概略図
\includegraphics[width=0.8\textwidth,natwidth=610,natheight=642]{.././kmeans_picture.png}