クラスタリング法は教師なし学習の方法の一つである.クラスタリングの目的はラベルがないデータのパターンを探す.クラスタリング法には色んなアルゴリズムがある,赤野の研究で用いられる方法はK-means法である. k-means法のアルゴリズムを紹介する.まずは人手でクラスター数を決める.クラスターの数をKで示す.データを
で示す,クラスターは
で示す.クラスターの中心ベクトルを
で示す.手順を以下で示す.
手順1 | ランダムでK個のベクトルを選ぶ.このK個のベクトルをk個のクラスターの中心ベクトルとして扱う.
|
手順2 | あるデータxとK個のクラスターの中心ベクトルとの距離(ユークリッド距離)を計算する.データxを距離が最も近いクラスターに分類する.
|
手順3 | クラスターの中心ベクトルを更新する.更新方法はクラスターにあるすべての単語ベクトルのelementwise-meanをこのクラスターの中心ベクトルとして扱う.
|
手順4 | 手順2と手順3をすべでのデータを1個つず用いて繰り返す.
|
k-means法の結果の例を図で示す.