節で示した,単文171,988文と重
文複文111,719文,計283,707文を用いる.学習データの単語数と,単語区切りフ
レーズテーブルと文節区切りフレーズテーブルのフレーズ対の数を表
に示す.
表
から,単語区切りフレーズテーブルと比較して,文節区切
りフレーズテーブルのフレーズ対の数が,約6割であることがわかる.これは,
文節区切りの学習データの文節数が,単語区切りの学習データの単語数と比較し
て,半分程度であることが原因である.
また,単語区切りフレーズテーブルと文節区切りフレーズテーブルには,確率は 異なるが,日本語フレーズと英語フレーズの対応が同じフレーズ対が存在する. 例を以下に示す.
| 単語区切りフレーズテーブル |
|
1人ずつ 2 0 歳 に なる お茶 の その 問題 について 世界 的 に
|
| 文節区切りフレーズテーブル |
|
1人ずつ 2 0 歳 に なる お茶 の その 問題 について 世界 的 に |
このような,単語区切りフレーズテーブルと文節区切りフレーズテーブルにお いて,日本語フレーズと英語フレーズの対応が同じフレーズ対は,696,644件存 在する.そのため,本手法で生成したユニークなフレーズ対の数は355,161件で ある.