まず,word2vecは単語をベクトル変換するものである.作者のMikolovら [2]は、意味的に関連が強い単語はベクトルが近くなると主張している [6].例えば,「Java」「Perl」「Ruby」などはプログラミング言語として似た単語としてベクトルが近くなる.このように入力された文章から似たような単語ベクトルを集めてクラス毎に分類することをクラスタリングという.
Wikipediaの「大学」に関するデータ(2014年11月)を入力として,1,000個のクラスタにクラスタリングした結果の一部(3つのクラスタ)を例として表4.1,表4.2,表4.3に示す.ここで言う,Wikipediaの「大学」に関するデータは,タイトルが「大学」を含むWikipediaのページのことである.
表4.1は芸術大学という点でで同じような単語が集まっている.表4.2は短期大学という点で同じ単語が集まっている.表4.3は点数関係が集まっている.