next up previous
次へ: 実験結果 上へ: モーラ情報を用いた音素ラベリング 戻る: 評価方法 音素境界位置

実験条件

データベースにはATRの単語発話データベースAsetの5,240単語を使用し,奇数 番を学習データに,偶数番を評価データとする.学習データ,評価データとも に音素数は約15,500で母音数は約8,000である.使用する音声データは全て, 人手によって音素境界位置が付与されている.

評価実験は,男性話者10名と女性話者10名で行う.ケプストラムの計算や音素 HMMの学習や自動ラベリングなどにはHTK[6]を使用する.音響モデルには ラベリングの精度を高くするためにFull-covariance HMMを使用して実験を行う. その他の実験条件を表3に示す.


Experimental Conditions
表: 実験条件
標本周波数 16kHz 学習DB 2,620単語
分析窓 Hamming窓 音素数 約15,500
分析窓長 20ms 母音数 約8,000
フレーム周期 5ms 評価DB 2,620単語
音響モデル 4状態3ループ 音素数 約15,500
mixture 3 母音数 約8,000
特徴ベクトル 16次MFCC+    
  対数パワー(計17次)    

モーラ情報を使って母音・促音・撥音を分類すると,音素の種類は,26種類から 約160種類に増加する.しかし,学習データが不十分であるために学習ができな い音素HMMがある.そのため,評価実験で使用される音素HMMは約80種類となった. また,学習データが不十分で音素HMMが作成できない音素を含む評価データは, 評価から除外した.



平成15年12月22日