実験には,辞書の例文から抽出した,単文コーパス181,988文[6]と重文複 文コーパス121,719文[7]を用いる.単文コーパスから,Openテストデータ 9,000文とdevelopmentデータ1,000文をランダムに抽出し,残りの 171,988文を学習データに用いる.また,重文複文コーパスからも同様に,Open テストデータ9,000文とdevelopmentデータ1,000文をランダムに抽出し, 残りの111,719文を学習データに用いる.単文コーパスと重文複文コーパス中の 対訳文の例を表に示す.
単文コーパス | |
日本語文 | 彼は有能な商人です。 |
英語文 | He is an able merchant. |
日本語文 | ぶどう酒は葡萄より作られる。 |
英語文 | Wine is made from grapes. |
日本語文 | 花子は、悲しそうに俯いていた。 |
英語文 | Hanako appeared sad and downcast. |
日本語文 | 生徒は半径5cmの円を描いた。 |
英語文 | A student drew a circle with a radius of 5 cm. |
重文複文コーパス | |
日本語文 | 彼は偏見がありそのため信頼できなかった。 |
英語文 | He was biased, and so unreliable. |
日本語文 | パチンコはわたしの好きな遊びの一つです。 |
英語文 | Pachinko is one of my favorite pastimes. |
日本語文 | その鳥は山を越えて飛んでいった。 |
英語文 | The bird winged its flight over the hills. |
日本語文 | 急いでいて彼女に大事なことを言い忘れた。 |
英語文 | I was in such a hurry I forgot to tell her the most important thing. |
一般に,日英統計翻訳では,前処理として各コーパスの日本語文を形態素解析を 用いて単語に区切る.本研究では,形態素解析器として``MeCab[8]'' を用いる.また,文節区切りフレーズテーブルの学習のために,構文解析器 ``CaboCha[9]''を用いて,文節区切りの学習データも生成する.ま た,英語文に対しては句読点の前後にスペースを入れる.一般に,英語文に対し ては,大文字の小文字化を行うが,本研究では行わない.