表4 5より,全ての実験において,単 語のモーラ数と単語のモーラ位置を用いることにより,音素境界位置および音素 継続時間の精度向上が認められた.しかし,単語のモーラ情報を用いてHMMを作 成した場合と,用いずにHMMを作成したときでは,HMMのパラメータの数が異なる ため,公平な比較にはならない.そこで,全ガウス分布の数を固定できる半連続 分布HMM[11]を用いて同様な実験を行った.
なお,HTKを用いて半連続分布HMMを作成する際,連結学習が必須になる.しかし, 連結学習をおこなうと自動ラベリングの精度が低下することが一般的に知られて いる.そのため,HMMの学習は,半連続型HMMにおいて連結学習を行った後で,再 び音素ごとにBaum-Welch学習を行った.結果を表9にまと める.なお,半連続型HMMのガウス分布の数は256とし,Diagonal-covariance HMMで計算した.
モーラ無し | モーラ有り | |||||||||||||||||
DB | 調査音素数 | 平均値 | 標準偏差 | 調査音素数 | 平均値 | 標準偏差 | ||||||||||||
MAU | 17334 | -2.53 | 20.61 | 15959 | -2.37 | 21.86 | ||||||||||||
MMY | 17700 | -2.91 | 19.83 | 15509 | -2.31 | 19.74 | ||||||||||||
MTK | 17347 | -0.40 | 20.68 | 15534 | -1.04 | 22.43 | ||||||||||||
男性平均 | -1.95 | 20.37 | -1.91 | 21.34 | ||||||||||||||
FTK | 17395 | -1.78 | 22.24 | 16218 | -2.01 | 21.33 | ||||||||||||
FYN | 17598 | -1.28 | 28.70 | 16372 | 0.13 | 28.45 | ||||||||||||
FAF | 17700 | -2.53 | 26.73 | 17127 | -2.92 | 24.53 | ||||||||||||
女性平均 | -1.86 | 25.89 | -1.60 | 24.77 |
この結果をみると,女性話者ではモーラ情報をもちいることにより,セグメンテー ションの精度が向上していることがわかる.しかし,男性話者では精度が低下し た.
現在のHTKでは半連続分布型HMMを作成するときに連結学習が必要になる.これが 問題になったと考えられる.今後,連結学習を行わずに半連続型HMMを学習する 方法を検討する必要がある.