next up previous contents
次へ: 複雑な名詞句への対応 上へ: 考察 戻る: 考察   目次

itSO-scoreによる評価極性算出精度について

SO-scoreの算出において,ベースライン手法からの評価極性算出精度の向上はわずかであった.考えられる原因として,極性表現対知識ベースの所有する極性表現対のデータ不足が考えられる.

極性表現対知識ベースの有する 210 対の極性表現対は,本稿の著者が手作業で付与していったものであり,名詞の種類,状況,判断条件の3つの組み合わせを手がかりに,連想する極性表現を随時追加したものである.そのため,見落とした極性表現が多く,物事の評価のベクトル(味,臭い,重さ,etc…)を知識ベースに列挙しきれていないという問題が残っている.この問題は,新しく極性を一つ追加するだけで,今まで好評であった単語が急に不評となるといった可能性も含んでいる.絶対数を増やすために,形容詞用法辞書等に記載されている表現を極性表現とみなし,機械的に追加する方法が考えられる.日本語の表現は形容詞だけでも3000語程存在するので,絶対数の不足は解消できる.この絶対数を増やすことで,物事を評価する際の切り口が増え,様々な要素について評価して評価極性を算出することが可能になるので,信憑性の向上にも繋げることができる.

また,他にも評価極性を算出する場合,コーパス内での出現頻度が多いほど評価極性算出精度の信憑性を向上させられる.しかし,コーパスを増やしたとしても,出現頻度が1桁台となる語句は存在し,そのような語句は評価極性が不安定となってしまう.本研究では頻度不足でSO-scoreが算出出来なかった名詞句はほとんど無かったため,提案手法でのSO-score算出式の拡張により,共起頻度の集め易さは向上していると考えられる.

極性表現を連想してゆく作業において,コーパスの種類によって極性表現対の表記を使い分けた方がよい場合があった.簡単に言えば,ブログ文では口語的,現代風な表現が多く出現するため,作成する極性表現対もそれに沿った表現にした方がよいということである.例えば,極性表現対に「格好いい-格好悪い」があったとすると,「イケた-ダサい」のような極性表現を用いる方が共起頻度が集め易い場合もある.本研究ではブログ文コーパスをSO-scoreの算出に使っているが,知識ベース作成の際にはその点に注意して作成するよう心がけた.因みに,コーパスに新聞記事等の体裁が整っている物ではなく,ブログ文を用いているのは,ブログ文に,筆者による直接的な感情表現や,一般的な人の赤裸々な意見や経験談が記述されているためであり,より人間らしいコーパスとして利用できるためである.

最後に提案手法の精度を求める際に,本研究では全ての極性表現対を使用した精度をまとめて求めるようにした.しかし,効果のある極性表現対を見分けるためには,極性表現対を一つ追加する度にそれによる影響を実験して求める必要があった.

5.4の結果を見ると,コーパス絞り込み機能だけではベースラインよりも精度が下がっているが,極性表現選択機能と組み合わせることで,極性表現選択機能単体よりも精度が向上していることが確認できる.これは,``良い'',``悪い''以外として連想した極性表現が,絞り込んだコーパス先で上手く出現していることを表しており,絞り込んだ少量のコーパスでも,より正確な評価極性が算出可能になるということを示していると考えられる(リソースの削減効果).



平成26年3月7日