3.1節の分析で「もの」「である」のような表現は冗長になりやすいと確認できた. そのため分析した「冗長な文」に出やすい表現に着目する. なぜならこれらの表現は必ずしも冗長な表現になるわけではないと思われる. 例えば,「すること」という表現では,図4.3のように冗長な場合と冗長でない場合がある.
例の「軽くすることができる」の文中に含まれる「すること」は「軽く」をただ強調しているだけのため冗長な表現だといえ,例えば「軽くできる」と修正できる.しかし「合理的発展に資することを定めた法律」の文中に含まれる「すること」は資するという動詞の一部なので修正することができない.
そこでこのような必ずしも冗長ではない文について逐次的な機械学習を し冗長な文を検出する.
この検出は表現の個数分,機械学習をすることになる.例えば,特定の表現として「可能」「という」の二つがあった場合, 「可能」を含む文の集合に対して一つの機械学習を行い, 「という」を含む文の集合に対して一つの機械学習を行う. 「可能」を含む文が冗長かいなかを判定する際には, 「可能」を含む文の集合で学習した結果を利用し行う. 本章ではこの考え方に基づいて行った冗長な文の検出について述べる.