Wikipediaの城ページにおいて実際に情報が欠落していた項目を,情報抽出の実験で適切に空欄として検出できると,文章作成支援が適切に行えたと考える.また,城ページにクラスタ内の類似単語の記述があり,それが表に出力されてなかった場合は不適切とする.具体的には,河渡城のページに「敗れる」という記載があった.クラスタ401の戦い関係には「敗北」や「敗走」などの単語が出力されていた.だが河渡城のクラスタ401には空白として検出されていた.この場合「敗れる」が「敗北」の類似単語とすることができる.このため,この場合は不適切に空白と検出したとする.
空欄箇所に基づく情報の欠落項目の検出性能を再現率,適合率,F値で評価した.その結果を表5.14に示す.上位下位知識に基づく手法ではF値は0.85で,クラスタリングに基づく手法ではF値は0.92でクラスタリングの結果の方が性能が良かった.
手法 | 再現率 | 適合率 | F値 |
上位下位知識 | 0.89 (37/ 33) |
0.83 (40/ 33) |
0.85 |
クラスタリング | 1.00 (55/ 55) |
0.85 (65/ 55) |
0.92 |