本論文では,単語のモーラ数および単語のモーラ位置が決まれば,単語によらず ピッチ周波数がほぼ決まることを利用して,母音・促音・撥音のHMMを,単語の モーラ数および単語のモーラ位置で分類して学習を行い,単語の音素境界位置を 求めた.そして,モーラ情報を使用した場合と使用しない場合で,人手によって 求められている音素境界位置と計算によって求められた音素境界位置を比較し標 準偏差を求めた.その結果,音響モデルにFull-covariance HMMを使用した場合, 男性話者10人の標準偏差は約1.4ms向上し,女性話者10人の標準偏差は,約3.5ms 精度が向上した.したがってモーラ情報を利用することによる有効性が得られた.
各音素境界位置ごとにモーラ情報の有効性を調べたところ,もっとも有効であっ たのは,母音と母音の音素境界位置であった.また,モーラ位置の情報にアクセ ントを加えて自動ラベリングをおこなったところ,さらに精度が向上することが 示された.そして,男性話者と女性話者の実験結果を比較したところ,モーラ情 報は男性話者に比べ女性話者の方が有効であることがわかった.
今後,最適な実験条件のパラメータの検討やtriphoneモデルやモーラ情報が不特 定話者の音素ラベリングに有効であるか調べる必要がある.
謝辞
現在鳥取大学大学院修士課程2年の石田隆浩君に, ATR,Asetの平均ピッチ周波数 を計算してもらいました.感謝いたします.