next up previous contents
次へ: ベースラインシステム 上へ: 翻訳システム 戻る: 本研究の翻訳システム   目次

本研究の翻訳システムの手順

本研究の翻訳システムの手順を以下に示す.
手順1
日英対訳単語辞書の作成
まず日英対訳学習文からGIZA++を用いて日英単語辞書と英日単語辞書 を作成する.次に両辞書における各単語の確率を掛け合わせる.そして閾値以上 の確率を持つ単語を用いて日英対訳単語辞書を作成する.表4.1に日英 対訳単語辞書の例を示す.



表 4.1: 日英対訳単語辞書の例
日本語 英語 確率
He 0.4
彼女 She 0.5
ハワイ Hawaii 0.4

手順2
日英文パターン辞書の作成
日英対訳単語辞書を用いて日英対訳学習文から日英文パターン辞書を自動的に作 成する.図4.2に日英文パターン辞書の作成手順を示す.

図 4.2: 提案手法における日英文パターン辞書の作成手順
\fbox{
\includegraphics{pattern_flow.eps}
}
日英文パターン辞書は日英対訳単語辞書を参照し,日英対訳学習文中で適合する 単語を変数化して作成する.図4.2において,日英対訳学習文中 にある単語``彼''と``He''が日英対訳単語辞書中にある.したがって,両者を変 数``X1''に置換する.同様に``生徒''と``student''も変数``X2''と して置換する.以上の処理を日英対訳学習文全てに対して行い,日 英文パターン辞書を作成する.

手順3
パターン翻訳
手順1の日英対訳単語辞書と手順2の日英文パターン辞書を用いて,日本語テスト 文と日本語学習文に対してパターン翻訳を行う.パターン翻訳を行う際,日本語 入力文中の単語と日英対訳単語辞書中の単語で,対応する単語が複数ある場合に は,全ての組合せを翻訳候補として出力する.次に各翻訳候補で使用した単語の 確率を掛け合わせ,翻訳候補の中で確率が最も高い候補文を選択する.以後,選 択した文を英'語出力文とする.また入力文1文に対して複数のパターンに適合する場 合,各文パターンにつき1文を出力する.図4.3にパターン翻訳の例 を示す.
図 4.3: 提案手法におけるパターン翻訳の手順
\fbox{
\includegraphics{pattern_translation_flow.eps}
}

4.3の例では,日本語入力文に対して2つの日英文パターンが適合 する.まず,日本語入力文の``彼女''に対応する単語が日英対訳単語辞書に2 つあり,``先生''に対応する単語が1つあるので,文パターン1,文パターン2に おいてそれぞれ2文が翻訳候補として出力される.次に,翻訳候補が使用した単 語の確率を掛け合わせる.そして掛け合わせた確率を使用し,最も確率が高い翻 訳候補を選択する.文パターン1では``出力文1a''を,文パターン2では``出力文 2a''を選択し,2つの出力文を英'語出力文とする.以上の処理と同様にして,入 力文全てに対してパターン翻訳を行う.
尚,提案手法のパターン翻訳において,次の場合にはパターン翻訳の出力をしな い. また日英文パターンに適合しない日本語テスト文に関しては,4.3章で 述べるベースラインシステムと同様の翻訳を行う.

手順4
統計翻訳の翻訳モデルと言語モデルの学習
学習データには,日本語学習文のパターン翻訳で出力された英'語学習文と,そ の英'語学習文に対応する英語学習文を用いる.この英'語学習文と英語学習文を 用いて翻訳モデルを,英語学習文を用いて言語モデルを学習する.

手順5
統計翻訳における英語文生成
本研究における統計翻訳のデコーダにはMosesを用いる. 手順4で学習した翻訳モデルと言語モデルを用いて,手順3の英'語テスト文に英' 英統計翻訳を行う.図4.4に統計翻訳の例を示す.
図 4.4: 提案手法における統計翻訳の手順
\fbox{
\includegraphics{stat_translation_flow.eps}
}

手順6
翻訳候補の選択
手順3で得られた英'語テスト文には,入力文1文に対して複数の翻訳候補がある. そこで,複数の翻訳候補の中から手順5の統計翻訳の出力時における確率が最 も高い文を最終的な出力として1文選択する.



平成22年2月11日