表7.1に先行研究の自動評価の結果を示す.太字の数値は各自動評価でもっとも高い数値を表している.また表4.3に,先行研究の人手評価の結果を示す.表4.3の評価基準は表
に示す.
| RBMT | PSMT | HSMT | RBMT+PSMT | |
| BLEU | 0.1320 | 0.1341 | 0.1352 | 0.1798 |
| NIST | 4.8260 | 4.9239 | 4.9628 | 5.5426 |
| METEOR | 0.4724 | 0.4544 | 0.4551 | 0.5078 |
| RIBES | 0.7281 | 0.7114 | 0.7198 | 0.7540 |
| ルールベース翻訳◯ | ルールベース翻訳の方が優れている |
|---|---|
| ハイブリッド翻訳◯ | ハイブリッド翻訳が |
| ルールベース翻訳より優れている | |
| 句に基づく統計翻訳◯ | 句に基づく統計翻訳が |
| ルールベース翻訳より優れている | |
| 階層型統計翻訳◯ | 階層型統計翻訳が |
| ルールベース翻訳より優れている | |
| 差なし | 意味に差がない or |
| 共に意味が不明瞭である | |
| 同一出力 | 出力文が完全に同じ文である |
| ルールベース翻訳◯ | ハイブリッド翻訳◯ | 差なし | 同一出力 |
| 23 | 5 | 59 | 13 |
| ルールベース翻訳◯ | 句に基づく統計翻訳◯ | 差なし | 同一出力 |
| 34 | 3 | 63 | 1 |
| ルールベース翻訳◯ | 階層型統計翻訳◯ | 差なし | 同一出力 |
| 30 | 3 | 66 | 1 |
表4.1の自動評価は,ハイブリッド翻訳の時,もっとも高い評価をしている. しかし,表4.3の人手評価は,ハイブリッド翻訳より,ルールベース翻訳が高い評価をしている. よって,先行研究で人手評価と自動評価の差が確認された.