次へ: デコーダー
上へ: 言語モデル
戻る: N-gramモデル
目次
-gramモデルにおいて,信頼できる値を算出するためには大規模コーパスを使用しなければいけない.しかし,実際は多くの単語列の出現率は0となるため,信頼できる値を推定できない場合が多い.そこで,それを解決するためのスムージングの手法が提案されている.スムージングとは,生起確率が0となるのを防ぐために,大きい確率値を小さくし,小さい確立値を大きくする手法である.代表的な手法としてバックオフスムージング(back-off smooting)があり,バックオフスムージングでは学習データに出現しない-gramの値を(-1)-gramの値から推定を行う.3-gramの場合の例を以下の式に示す.
|
|
|
(2.24) |
はディスカウントと呼ばれる係数で,出現しない-gramに対して確率を付与するために,(-1)-gramから確率を推定する.また,は確率の和を1にするための正規化係数である.``-ndiscount''や ``-kndiscount''や``-ukndiscount''などの,ディスカウント係数を求める方法が多数存在する.
s102025
平成27年3月9日