人手で選んだ重要項目を表5.2に示す.重要項目のクラスタ内の単語の一部を表5.3に示す.
先行研究では重要項目が4個であったのに対して,提案手法は重要項目を20個に増やすことができた.
次に情報抽出の性能を調べる.20個のクラスタのうちから選んだ表5.5,表5.6,表5.7の3つのクラスタを評価に利用した.このクラスタ内の単語が各欄に正しいものが1つでも得られて出力されれば正しく抽出したとする.
| おびき出し,ひい,引き返し,援軍 ,炎上 ,加わっ ,壊滅 ,開城 |
| 勧告,陥落,頑強,奇襲,喫し,救援,窮地,屈服,迎え撃つ ,向かわ |
| 抗戦,攻める,攻め寄せ,攻め落とす,惨敗,持ちこたえ,銃撃,出撃 |
| 出陣,少数,焼か,焼き討ち,焼き払い,焼き払わ,申し入れ,進軍 |
| 占拠,全滅,阻止,総崩れ,遭い,態勢,退け,退却,大敗,着陣,駐留 |
| 直ぐ,抵抗,撤退,転戦,逃走,派兵,破っ,敗戦,敗走,敗退,敗北 |
| 迫り,不完全,伏兵,奮戦,兵糧,放火,防戦,本隊,明け渡し,戻り |
| 夜襲,落ち延びる,落城,篭城 |
| )]],くろがね,移築,医,一ノ門,円城寺,外丸,外門,官衙,歓会 |
| 丸,丸内,祈念,亀甲,喰違,御殿,御門,高麗,三ノ丸,山里,仕切 |
| 鐘,政庁,正門,西丸,西大手,西門,前門,総門,大手門,大門,中仕切 |
| 中門,長屋門,追廻,追手,天球,土蔵,東丸,東大手,東門,撞堂,内門 |
| 二の丸,二ノ,二之,日出,納屋,番所,表門,北御門,北門,本丸,門 |
| 門跡,門扉,役所,薬,裏門,蓮池 |
| ほど近い,ロマンティック,伊勢湾,碓氷,越え,越える,奥大道,往還,押さえ |
| 押さえる,海道,街道,幹線,関所,経路,繋がる,結ぶ,古道,交差,交通 |
| 国境,作手,参宮,参詣,山陰,山陽,水上,水陸,瀬戸内,生野,中山道,中道 |
| 通ずる,東海道,峠,分岐,並行,便,便利,北国,北陸,要所,要衝,要地 |
| 抑える,霊場,連絡 |
情報抽出に基づき表を作成した結果を表5.8,表5.9に示す.表5.8,表5.9において太字で表記されているものは 正解と判断したものである.また,○と表記されているものはWikipedia内に正解の記載が無く,空欄が正しく抽出されたと判断したものである.
3つのクラスタで1つでも正しく抽出された正解率は0.82 となった.
| 城名 | クラスタ401(戦い状況) | クラスタ407(城の造り) | クラスタ765(交通関係) |
| 宇和島城 | 門,大手門,山里,三ノ丸,追手,移築,二ノ,丸,本丸 | 交通 | |
| 筑後十五城 | 抵抗,大敗,篭城,頑強,少数 | 門 | ○ |
| 岡崎城 | ○ | 門,二の丸,大手門,三ノ丸,北門,移築,本丸,丸 | 海道,東海道,交通 |
| 松尾城 | ○ | ○ | ○ |
| リンダーホーフ城 | ○ | 街道 | |
| 小峯城 | ○ | ○ | ○ |
| 高橋城 | ○ | ○ | ○ |
| 川田城 | ○ | ○ | ○ |
| 長森城 | ○ | 丸 | 中山道 |
| 石神井城 | 加わっ,進軍,喫し,落城,出撃,惨敗,敗走,戻り,引き返し,放火,救援 | 大門,門,丸 | ○ |
| 鴨山城 | 出陣,破っ | 門 | 越え,要衝,山陽,瀬戸内 |
| 安濃津城 | ○ | ○ | ○ |
| 省城 | ○ | ○ | ○ |
| 打吹城 | 土蔵,本丸 | ||
| バルモラル城 | ○ | ○ |
| 城名 | クラスタ401(戦い関係) | クラスタ407(城の造り) | クラスタ765(交通関係) |
| 道本城 | ○ | ○ | ○ |
| 荊の城 | ○ | ○ | ○ |
| 白雲の城 | ○ | ○ | ○ |
| 三田城 | 落城 | 門,御門,丸内,大手門,移築,二ノ,番所,土蔵,丸,本丸 | 結ぶ,要衝 |
| 門司城 | 敗戦,壊滅 | 門,丸,本丸 | ○ |
| 下大留城 | ○ | ○ | ○ |
| 作山城 | 落城 | ○ | ○ |
| 溝口城 | ○ | ○ | ○ |
| 新屋城 | 落城 | ○ | |
| 浦賀城 | ○ | ○ | |
| 幻想水滸伝V 黎明の城 | ○ | ○ | ○ |
| 寒河江城 | 本隊,敗北,撤退,攻め寄せ,退け,救援 | 薬,門,二の丸,移築,丸内,丸,本丸 | ○ |
| 鏡島城 | ○ | 門 | ○ |
| 河渡城 | ○ | 要衝,中山道 | |
| 田幡城 | ○ | ○ |
また,表に抽出された単語の正解率も求めた.例えばクラスタ407である「門」が抽出されたとする.この場合wikipediaページ内に「門」と記述されていれば正解とするが,「五右衛門」の中の「門」だけが抽出された場合は不正解としている.また,クラスタリングを行った段階でクラスタ内に関係のない単語が抽出されその関係のない単語が表に抽出された場合は不正解としている.例えば,表 5.6の中の「医」の単語が城ページで出力されたとする.この場合クラスタ407は城の造りに関する単語が集まっている.だが,「医」という単語は城の造りに関係がないことは明白である.「医」のようにクラスタと関係のない単語が出力された場合は不正解とする.単語の正解率を求めた結果,単語の正解率は0.71となった.