音声認識や音声合成などの音声情報処理の研究において,音素の境界位置を示 す音素ラベリングデータは重要である.現在この音素ラベリングデータは,手 作業で作成されており,作成には多大な時間と労力を必要としている.このよ うな作業を軽減するため,大量の音声データを対象に自動的に音素ラベリング を行う自動ラベリングシステムが望まれている.
自動ラベリングの研究は,従来から多くの研究機関で行われている.HMM法と ベイズ確率を用いた統計的・確率的モデルによる方法[1],ルー ルベースを用いる手法[2],知識処理に基づく方法[3]な どが過去に報告されている.しかし,現段階の精度はまだ十分ではなく,さら に高い精度が要求されている.
ところで,音声信号は大きく2つの情報で構成されている.1つはフォルマン トで舌や喉の動きなどを表し音韻情報を多く含む.もう1つはピッチで声帯の 動きを表し個人情報や感情の情報を多く含む.この2つの情報を分離するため にケプストラム分析が良く利用される.この分析方法では,低次の項にフォル マントが,高次の項にピッチが抽出される.
現在の音声認識や音素ラベリングでは,特徴パラメータとしてフォルマント, つまりケプストラムの低次の項が利用される.しかし,ケプストラム分析をお こなった場合,ケプストラムの低次の項は,高次の項の影響を受けることが知 られている.つまり,フォルマントを計算するときに,ピッチが影響すること が知られている.一方最近の研究において,特定話者の単語発話において,単 語のモーラ位置および単語のモーラ数が決まればピッチ周波数がほぼ決まるこ とが知られている[4]. この関係を使用して,単語の音声合成におい て高い自然性を持った合成音声が得られることが確認されている.
本論文では、このピッチ周波数と単語のモ−ラ数および単語のモ−ラ位置の関係 を使うことで,フォルマントにおけるピッチの影響を分離できると仮定した.そ して,この関係を使用して自動ラベリングを行えば,音素境界位置の精度は向上 すると予想した.この予想を検証するため,本研究では,まず,母音・促音・撥 音を単語のモーラ数および単語のモーラ位置で分類して音素HMMの学習を行う. 次に,この音素HMMを使用して単語の音素ラベリングデータを作成する.最後に, 求められた音素境界位置と,人手によって付与された音素境界位置の差の標準偏 差を調べる.この標準偏差を単語のモーラ数およびモーラ位置を使用したときと 使用しないときで調べ,本手法の有効性を確認する.