next up previous contents
次へ: デコーダー 上へ: 言語モデル 戻る: N-gramモデル   目次

スムージング

$N$-gramモデルにおいて,信頼できる値を算出するためには大規模コーパスを使用しなければいけない.しかし,実際は多くの単語列の出現率は0となるため,信頼できる値を推定できない場合が多い.そこで,それを解決するためのスムージングの手法が提案されている.スムージングとは,生起確率が0となるのを防ぐために,大きい確率値を小さくし,小さい確立値を大きくする手法である.代表的な手法としてバックオフスムージング(back-off smooting)があり,バックオフスムージングでは学習データに出現しない$N$-gramの値を($N$-1)-gramの値から推定を行う.3-gramの場合の例を以下の式に示す.


$\displaystyle P(w_{i}\vert w_{i-1}^{i-2}) =\left\{ \begin{array}{ll}
\lambda(w_...
... \ N(w_{n-2}^{n-1}) \\
P(w_{i}\vert w_{i-1}) & other \\
\end{array} \right.$     (2.24)

$\lambda$はディスカウントと呼ばれる係数で,出現しない$N$-gramに対して確率を付与するために,($N$-1)-gramから確率を推定する.また,$\alpha$は確率の和を1にするための正規化係数である.``-ndiscount''や ``-kndiscount''や``-ukndiscount''などの,ディスカウント係数を求める方法が多数存在する.



s102025 平成27年3月9日