章と同様に,単文171,988文と重
文複文111,719文を用いる.
学習データの単語数と,生成されたフレーズテーブルのフレーズ対の数を表
に示す.
表
から,従来手法のフレーズテーブルと比較して,単語区
切りの日本語文とフレーズ単位に統合された英語文から生成されたフレーズテー
ブルのフレーズ対の数は約7割,文節区切りの日本語文とフレーズ単位に統合さ
れた英語文から生成されたフレーズテーブルのフレーズ対の数は約5割であるこ
とがわかる.
また,文節区切りフレーズテーブルと同様に,本章で生成したフレーズテーブル にも,従来手法のフレーズテーブルのフレーズ対と,確率は異なるが,日本語フレー ズと英語フレーズの対応が同じフレーズ対が存在する.これは,単語区切りの日本語文と フレーズ単位に統合された英語文から生成されたフレーズテーブルでは718,893 件あり,文節区切りの日本語文とフレーズ単位に統合された英語文から生成されたフ レーズテーブルでは546,054件ある.