システムにより出力された記事頻度上位1位から5位までの単語に正解候補がないと判定された箇所については,記事頻度上位6位から20位までにも正解候補がないかを取得したWeb文書から人手で確認する. さらに6位から20位までの単語にも正解候補となるものがWeb文書内になかった場合は,Webを利用して本当に正解候補が存在しないものなのかを確かめる. Web上にも正解候補となるものが本当に存在しないのであれば,その箇所は正解がないままでよいものとする. 本節では,そのような正解がないままでよいと判断した箇所を,正解がないままでよい箇所として正しく取り出せているかの評価実験を行った.
記事頻度上位1位から5位までに正解候補がない箇所について,正解がないままでよい箇所を正しく取り出すことができているかをF値で求める.F値の算出方法を以下に示す.
9#9 | (5.2) |
本研究において,適合率はシステムにより正解がないとなったもの,すなわち1位から5位に正解がないもののうち,正しく正解がないものを抽出できた割合を表したものである.再現率はWeb文書内に正解の記載がなかったもののうち,正しく正解がないものを抽出できた割合である.F値は適合率と再現率の調和平均である.式,式において「正解がないものの数」というのは表の正解候補がない部分のことである.また「システムが正解がないものとした数」というのは,システムにより表の1位から5位に正解候補がないものとして抽出されたもののことである. また「正しく正解がないものを特定した数」というのは,1位から5位までに正解候補がなく,かつ6位から20位までにも正解候補がWeb文書内で見つからず,Webを利用して正解候補となるものがないかを探しても存在しなかったもののことである. F値が大きいほど,抽出される情報がWeb上にも記載されていないことをシステムがより正しく抽出できたことを意味する.
正解がないままでよい箇所を正しく取り出せたかをF値で求めた結果について,固有表現抽出に基づく手法での結果を表に,上位下位知識に基づく手法での結果を表に,クラスタリングに基づく手法での結果を表に示す.
表と表と表から,記事頻度上位1位から5位までに正解候補がない箇所が正解がないままでよいものとして正しく取り出すことができているかのF値は,固有表現抽出に基づく手法では0.21,上位下位知識に基づく手法では0.36,クラスタリングに基づく手法では0.82であった.
また,正解がないままでよいと判断したものの例を表に示す. 表は,「省城」を検索エンジンに入力して取得した記事50件に対し固有表現抽出に基づく手法により重要情報を抽出し,単語が出現した記事数の上位1位から20位の単語を表にまとめたものである. 表において太字で記載してあるものは正解と判断したものである. 重要項目「地名」について,正解候補が1位にあったため,これは正解として評価を行う. 重要項目「人名」と「組織名」について,正解候補が上位1位から5位までにないため不正解であるが,正解候補となるものが上位6位から20位にもなく,Webで探しても正解が存在しないものであったため,正解がないままでもよいものとして評価実験を行った.
地名 | 人名 | 組織名 | ||
城名 | 記事頻度順位 | 正解候補が1位から5位にあったもの | Web上にも正解がないもの | Web上にも正解がないもの |
1 | 中国 | 建湖県 | 近畿運輸局 | |
2 | 台湾 | 台北 | 交通省 | |
3 | 台北 | 湖南 | 中医協 | |
4 | 日本 | ジン | 黒龍江省吉林省遼寧省内 | |
5 | 北京 | 大豊県 | 環境情報アーカイブズ事務所 | |
6 | 台 | 諸城 | パクリ疑惑 | |
7 | 江蘇省 | 桂林 | 潍坊 | |
8 | 上海 | 関羽 | 絳県 | |
9 | 城県 | 永寧寺 | 産経 | |
省城 | 10 | 茨城県 | 永寧 | 厚労省 |
11 | 山西省 | 林豪泰 | 区市県年月日射陽県 | |
12 | 湖南省 | 明代 | GE | |
13 | 河北省 | 大豊 | 鹽城 | |
14 | 遼寧省 | 厚労省 | 漓江 | |
15 | 矢部川 | ローソン | 労働省医政局経済課 | |
16 | 日 | 李金早 | 労働省 | |
17 | 東台県 | 平遥 | 防衛大学校 | |
18 | 東京 | 武昌 | 防衛医科大学校医 | |
19 | 千葉県 | 泊元 | 不法投棄情報大川出張所 | |
20 | 城原川 | 梅田 | 売却・貸付)審議会 | |