Next: 提案手法
Up: soturon
Previous: はじめに
目次
藤原ら [1]は情報抽出と文章作成支援の観点で研究を行っていた.
Wikipedia の城に関するページ(対象データ) を抽出し,その中から城に関する重要情報を
CaboCha(固有表現抽出ツール) を用いた固有表現抽出に基づく手法とALAGIN の上位下位知識
に基づく手法の2 手法で抽出した.対象データからCaboCha を用いて,「人名」「地名」「組織名」に分類された語句を抽出し表にまとめた.同様に上位下位知識を用いて対象データで下位語の頻度分析を行い,頻度が高かった下位語の上位語を重要項目とした.対象データで重要項目の下位語を取り出し,表にまとめていた.また重要情報の抽出で作成する表の空欄箇所を情報が欠けている項目と判定し,そのことをユーザーに知らせ記載の追加を促すことで文章作成支援をした.
岡田ら [3]は論文の研究成果や研究の有効性や必要性といった論文に記載必要な情報を「記載必要項目」として論文内で記載必要項目が欠落しているか否かを自動で検出することで文章作成支援を行っていた.
宮崎ら [4]は遠距離教師あり学習(distant supervision)を用いて,Wikipediaから得た用語をもとにコーパスに自動でアノテーションすることで専門用語を抽出する手法を行っていた.宮崎らはWikipediaを遠距離教師あり学習で情報抽出を行っていたが,本研究ではクラスタリングで情報抽出を行い,文章作成支援も行うという新規性がある.
村田ら [5]の研究 では,論文内から YamCha と教師あり機械学習を用いて「精度表現」「主要な 分野」「言語名」「組織人名」の取り出しを行った.
akano hokuto
2018-03-06