データベースにはATRの単語発話データベースAsetの5,240単語を使用し,奇数 番を学習データに,偶数番を評価データとする.学習データ,評価データとも に音素数は約15,500で母音数は約8,000である.使用する音声データは全て, 人手によって音素境界位置が付与されている.
評価実験は,男性話者10名と女性話者10名で行う.ケプストラムの計算や音素 HMMの学習や自動ラベリングなどにはHTK[6]を使用する.音響モデルには ラベリングの精度を高くするためにFull-covariance HMMを使用して実験を行う. その他の実験条件を表3に示す.
標本周波数 | 16kHz | 学習DB | 2,620単語 |
分析窓 | Hamming窓 | 音素数 | 約15,500 |
分析窓長 | 20ms | 母音数 | 約8,000 |
フレーム周期 | 5ms | 評価DB | 2,620単語 |
音響モデル | 4状態3ループ | 音素数 | 約15,500 |
mixture | 3 | 母音数 | 約8,000 |
特徴ベクトル | 16次MFCC+ | ||
対数パワー(計17次) |
モーラ情報を使って母音・促音・撥音を分類すると,音素の種類は,26種類から 約160種類に増加する.しかし,学習データが不十分であるために学習ができな い音素HMMがある.そのため,評価実験で使用される音素HMMは約80種類となった. また,学習データが不十分で音素HMMが作成できない音素を含む評価データは, 評価から除外した.