Next: おわりに
Up: 今後の課題
Previous: 名詞連続
目次
類似度の高い単語以外を削除することによって重要情報の一部が削除されるという問題が生じた.この問題が生じた原因は,類似度計算における入力単語に「城」を固定して使用したためであると考えられる.このことから,以上の問題を解決する方法として,以下のような新たな方法が考えられる.
- 重要項目を「戦い関係」「城の造り」「交通関係」の3つとする.
- 「戦い関係」「城の造り」「交通関係」の類似単語を取得する.(この場合,「戦い関係」の類似単語の取得には,類似度計算の入力に「戦い」を用いる.同様に,「城の造り」には類似度計算の入力に「造り」を,「交通関係」には類似度計算の入力に「交通」を用いる.これらの入力単語の類似単語を取得する.)
- 「戦い関係」「城の造り」「交通関係」のクラスタリング結果に対して,上記で得た類似単語を利用して関係のない単語を削除する.「戦い関係」のクラスタリング結果の単語群からは,「戦い」の類似単語以外の単語を削除する.「城の造り」のクラスタリング結果の単語群からは,「造り」の類似単語以外の単語を削除する.「交通関係」のクラスタリング結果の単語群からは,「交通」の類似単語以外の単語を削除する.以上の削除をした単語群を,各クラスタの単語群として用いて以降の処理を行う.
以上のように,各クラスタの概念を示す単語を選定し,その単語の類似単語以外の単語を削除することで,各クラスタ内の関係のない単語を削除できるのではないかと考える.この方法を利用することで,クラスタ内で関係のない単語の数が減少するので,そういうクラスタの単語群を利用すると,より適切な単語からなる表を作成できるのではないかと考える.
akano hokuto
2018-03-06