次へ: 提案手法 上へ: 冗長な文の検出 戻る: 実験と結果目次

冗長な文の検出2

4.4節での機械学習ではあまりよい結果は得られなかった．そこで，村田らの行った単語多義性解消問題の機械学習手法[8]を参考にし，本章では表現ごとに逐次的に機械学習を行うこととした．すべての文に対して一つの機械学習をするのではなく，特定の表現を含む文の集合に対して一つの機械学習を行う．

3.1節の分析で「もの」「である」のような表現は冗長になりやすいと確認できた．そのため分析した「冗長な文」に出やすい表現に着目する．なぜならこれらの表現は必ずしも冗長な表現になるわけではないと思われる．例えば，「すること」という表現では，図4.3のように冗長な場合と冗長でない場合がある．

図: 必ずしも冗長でない表現の例
45#45

例の「軽くすることができる」の文中に含まれる「すること」は「軽く」をただ強調しているだけのため冗長な表現だといえ，例えば「軽くできる」と修正できる．しかし「合理的発展に資することを定めた法律」の文中に含まれる「すること」は資するという動詞の一部なので修正することができない．

そこでこのような必ずしも冗長ではない文について逐次的な機械学習をし冗長な文を検出する．

この検出は表現の個数分，機械学習をすることになる．例えば，特定の表現として「可能」「という」の二つがあった場合，「可能」を含む文の集合に対して一つの機械学習を行い，「という」を含む文の集合に対して一つの機械学習を行う．「可能」を含む文が冗長かいなかを判定する際には，「可能」を含む文の集合で学習した結果を利用し行う．本章ではこの考え方に基づいて行った冗長な文の検出について述べる．

Subsections

tsudou 平成24年3月14日