(12) | |||
(13) |
ここで, は出力文と正解文のN-gramの一致率を表している.BLEU はこの一致率を1-gramから4-gramまで計算し,その幾何平均をとる.また,出力 文が正解文より短い場合,`` ''が小さくなり, 不当にスコアが高くなる可能性がある.そこで,正解文より短い文に対するペナ ルティとして, を用いる. は出力文が正解文より長い場合は1をとなり,出 力文が正解文より短い場合は1未満の値をとなる
METEORは予め用意された正解文と比較して,単語属性が正しい場合に高いスコア を出す.METEORは以下の式で計算される.
(14) | |||
(15) | |||
(16) |
METEORはまず再現率 と適合率 に基づくF値を求め,次に,単語の非連続性 に対するペナルティとして関数 を与える.ペナルティ関数 において, は出力文と正解文の単語の一致率を表す.そして, は一致した単語を対象 に,正解文と語順が同じものを1つのまとまりとして統合した場合の,まとまり の数を表す.そのため,出力文と正解文が同じ文であるとき =1となる.また, 一致率の計算において,WordNetによる類義語を用いて,似た意味を持つ単語は 同一であると判断される. , , の値はパラメータであ る.本研究では, =0.9, =3.0, =0.5の値を用いる.
両評価法とも0から1の間で評価され,出力文と正解文が同じ文であるとき1とな り,最も良い評価である.本研究では,入力文1文に対して正解文1文を用いて 評価を行う.
また,人手による評価として,対比較評価も行う.