次へ: ベースラインシステム
上へ: 翻訳システム
戻る: 本研究の翻訳システム
目次
本研究の翻訳システムの手順を以下に示す.
- 手順1
- 日英対訳単語辞書の作成
まず日英対訳学習文からGIZA++を用いて日英単語辞書と英日単語辞書
を作成する.次に両辞書における各単語の確率を掛け合わせる.そして閾値以上
の確率を持つ単語を用いて日英対訳単語辞書を作成する.表4.1に日英
対訳単語辞書の例を示す.
表 4.1:
日英対訳単語辞書の例
日本語 |
英語 |
確率 |
彼 |
He |
0.4 |
彼女 |
She |
0.5 |
ハワイ |
Hawaii |
0.4 |
- 手順2
- 日英文パターン辞書の作成
日英対訳単語辞書を用いて日英対訳学習文から日英文パターン辞書を自動的に作
成する.図4.2に日英文パターン辞書の作成手順を示す.
図 4.2:
提案手法における日英文パターン辞書の作成手順
|
日英文パターン辞書は日英対訳単語辞書を参照し,日英対訳学習文中で適合する
単語を変数化して作成する.図4.2において,日英対訳学習文中
にある単語``彼''と``He''が日英対訳単語辞書中にある.したがって,両者を変
数``X1''に置換する.同様に``生徒''と``student''も変数``X2''と
して置換する.以上の処理を日英対訳学習文全てに対して行い,日
英文パターン辞書を作成する.
- 手順3
- パターン翻訳
手順1の日英対訳単語辞書と手順2の日英文パターン辞書を用いて,日本語テスト
文と日本語学習文に対してパターン翻訳を行う.パターン翻訳を行う際,日本語
入力文中の単語と日英対訳単語辞書中の単語で,対応する単語が複数ある場合に
は,全ての組合せを翻訳候補として出力する.次に各翻訳候補で使用した単語の
確率を掛け合わせ,翻訳候補の中で確率が最も高い候補文を選択する.以後,選
択した文を英'語出力文とする.また入力文1文に対して複数のパターンに適合する場
合,各文パターンにつき1文を出力する.図4.3にパターン翻訳の例
を示す.
図4.3の例では,日本語入力文に対して2つの日英文パターンが適合
する.まず,日本語入力文の``彼女''に対応する単語が日英対訳単語辞書に2
つあり,``先生''に対応する単語が1つあるので,文パターン1,文パターン2に
おいてそれぞれ2文が翻訳候補として出力される.次に,翻訳候補が使用した単
語の確率を掛け合わせる.そして掛け合わせた確率を使用し,最も確率が高い翻
訳候補を選択する.文パターン1では``出力文1a''を,文パターン2では``出力文
2a''を選択し,2つの出力文を英'語出力文とする.以上の処理と同様にして,入
力文全てに対してパターン翻訳を行う.
尚,提案手法のパターン翻訳において,次の場合にはパターン翻訳の出力をしな
い.
- 日本語入力文が日英文パターンに適合しない
- 日英対訳単語辞書を参照する時に適合する単語が日英対訳単語辞書に登
録されていない
また日英文パターンに適合しない日本語テスト文に関しては,4.3章で
述べるベースラインシステムと同様の翻訳を行う.
- 手順4
- 統計翻訳の翻訳モデルと言語モデルの学習
学習データには,日本語学習文のパターン翻訳で出力された英'語学習文と,そ
の英'語学習文に対応する英語学習文を用いる.この英'語学習文と英語学習文を
用いて翻訳モデルを,英語学習文を用いて言語モデルを学習する.
- 手順5
- 統計翻訳における英語文生成
本研究における統計翻訳のデコーダにはMosesを用いる.
手順4で学習した翻訳モデルと言語モデルを用いて,手順3の英'語テスト文に英'
英統計翻訳を行う.図4.4に統計翻訳の例を示す.
- 手順6
- 翻訳候補の選択
手順3で得られた英'語テスト文には,入力文1文に対して複数の翻訳候補がある.
そこで,複数の翻訳候補の中から手順5の統計翻訳の出力時における確率が最
も高い文を最終的な出力として1文選択する.
平成22年2月11日