next up previous contents
Next: ・モデル3 Up: IBM翻訳モデル Previous: ・モデル1   目次

・モデル2

モデル1では,全ての単語の対応に対して,英語文の長さ$ l$ にのみ依存し,単語対応の確率を一定としている. そこで,モデル2では,$ j$ 番目の仏単語$ f_j$ と対応する英単語の位置 $ a_j$ は英語文の長さ$ l$ に加えて,$ j$ と,フランス語文の長さ$ m$ に依 存し,以下のような関係とする.
$\displaystyle a(a_j\vert j, m, l) \equiv P(a_j\vert a^{j-1}_1, f^{j-1}_1, m, l)$     (2.9)

この関係からモデル1における(2.4)式は,以下の式に変換できる.

$\displaystyle P(F\vert E)$ $\displaystyle =$ $\displaystyle \epsilon \sum^l_{a_1=0} \cdots \sum^l_{a_m=0} \prod^m_{j=1}
t(f_j\vert e_{a_j})a(a_j\vert j, m, l)$ (2.10)
  $\displaystyle =$ $\displaystyle \epsilon \prod^m_{j=1} \sum^l_{i=0} t(f_j\vert e_{a_j})a(a_j\vert j, m, l)$ (2.11)

モデル2では,期待値は $ c(f\vert e;F,e)$ $ c(i\vert j,m,l;F,E)$ の2つが存在する.以下の式から求められる.

$\displaystyle c(f\vert e;F,E)$ $\displaystyle =$ $\displaystyle \frac{t(f\vert e)}{t(f\vert e_0) + \cdots + t(f\vert e_l)}
\sum^m_{j=1} \delta(f,f_j) \sum^l_{i=1} \delta(e,e_i)$ (2.12)
  $\displaystyle =$ $\displaystyle \sum^m_{j=1} \sum^l_{i=0} \frac{t(f\vert e) a(i\vert j,m,l)
\del...
...e_i)} {t(f\vert e_0) a(0\vert j,m,l) + \cdots
+ t(f\vert e_l) a(l\vert j,m,l)}$ (2.13)
$\displaystyle c(i\vert j,m,l;F,E)$ $\displaystyle =$ $\displaystyle \sum_a P(a\vert E,F) \delta(i,a_j)$ (2.14)
  $\displaystyle =$ $\displaystyle \frac{t(f_j\vert e_i) a(i\vert j,m,l)}{t(f_j\vert e_0) a(0\vert j,m,l) +
\cdots + t(f_j\vert e_l)a(l\vert j,m,l)}$ (2.15)


$ c(f\vert e;F,E)$ は対訳文中の英単語$ e$ と仏単語$ f$ が対応付けされる回数の 期待値, $ c(i\vert j,m,l;F,E)$ は英単語の位置$ i$ が仏単語の位置$ j$ に対応付 けされる回数の期待値を表している.

モデル2では,EMアルゴリズムで計算すると複数の極大値が算出され,最適解が 得られない可能性がある.モデル1では $ a(i\vert j,m,l)=({l+1})^{-1}$ となるモデル 2の特殊な場合であると考えられる.したがって,モデル1を用いることで最適解 を得ることができる.


next up previous contents
Next: ・モデル3 Up: IBM翻訳モデル Previous: ・モデル1   目次
2015-03-21