次へ: 京大コーパス
上へ: 安井らの研究とその問題点
戻る: 安井らの提案手法
目次
安井らの研究では,「V+AのB」型名詞句は,京大コーパスから抽出して使用
している.しかし,京大コーパスに,あらかじめ付与されている係り先情報は,
あいまいな係り先のものを,無理に一方に指定していると安井らは報告して
いる.そのため,安井らの研究では,正確な係り先解析実験を行
うために,あいまいな係り先を持った名詞句を排除したデータ作成を行って
いる.手順は以下のようになっている.
- 100件の「V+AのB」型名詞句を集める
- 3人の作業者が「A係り」,「B係り」,「AB係り」の判定を行う
- 3人が同一の係り先とした55件の名詞句を抽出し,テストデータとす
る
安井らは,上記の作成手順に基づき係り先データを作成している.しかし以
下に記述したことを考慮しておらず,そのデータの信頼性は未確認となっている.
- 係り先付与作業を依頼した3人の付与精度を調査していない
- 作業者が3人と少ない
- 評価データが55件と少ない
以上のことから,安井らの研究で行った評価実験の結果は不確かなものとなってい
る.
平成19年3月25日