現在,カーナビゲーションシステムや電車の車内アナウンス等のように,音声ガ イダンスを利用したシステムやサービスが様々な場面において利用されている. このようなシステムでは,録音編集方式が広く使われている.録音編集方式では, システムやサービスに必要となる音声を,サービスが利用される時間・場所等を 示す固有名詞のように比較的短い単語・文節(以下,可変部)と,それ以外の比 較的長い文節・文(以下,固定部)に区別する.この可変部と固定部を別々に録 音し,組み合わせを変化させることで出力音声を作成する.
例えばカーナビゲーションシステムにおいて,ユーザの入力に対し,「次の目的 地は○○です」という音声が出力される.出力音声において,○○の部分が可 変部,それ以外の部分が固定部に相当する.ユーザが目的地に「鳥取駅」を入力 した場合,出力される音声は「次の目的地は鳥取駅です」となる.
上記例のように録音編集方式では可変部と固定部の組み合わせにより大量の出力 音声が作成出来る.しかし録音編集方式の問題点の1つとして,可変部と固定部 を接続する際に違和感を生じさせないために,同一話者の音声である必要がある. 可変部と固定部を分離して録音することにより,必要となるすべての音声を録音 する場合に比べて話者に対する負担は若干軽減されるが,可変部に挿入する単語 が増大した場合,同一話者から全ての音声を録音することは困難となる.さらに, 録音環境の違いにより発話速度 周波数にばらつきが出るため,安定した 品質の音声を得ることは非常に困難となる.
そこで,固定部と可変部に必要となる音声をすべて音声合成によって作成する方 法が考えられる.例えば,音素や音節,CV,VCVを単位とした規則音声合成があ る.規則音声合成は,古くからTTS音声合成において用いられてきた方法であり, 基本的には,音声の特徴をパラメータとして抽出し,変形することによって合成 音声を作成する.また,PSOLA方式による音声合成については,現在も多くの研 究がなされている.さらに最近ではHMMを用いて直接音声を合成する研究も行わ れている.しかし,いずれの場合においても,直接人の声を録音した音声に比べ, 安定して高い品質を得るのは困難である.
一方,音声が収録されているデータベースから音声波形の一部(以下,音節素片) を取り出し,信号処理をせずに接続することで,別の音声を合成する波形接続型 音声合成と呼ばれる方法がある[1].接続単位については,音素,音節, CV,VCVなど,様々な単位が提案されているが,本研究では接続単位として音節 を用いる音節波形接続型音声合成を用いる.音節波形接続型音声合成は,音声波 形に信号処理を加えないため,自然性の高い音声が作成出来るが,その一方で韻 律の扱いが問題となる.しかし本研究で対象とする「普通名詞」を合成する場合 において,アクセント型を考慮することで,明瞭性が高く,自然性の高い合成音 声の作成が可能である事が示されている[2].また音節波形接続型音 声合成は,音節素片選択時に7つの言語情報の条件が完全に一致する必要がある. そのため,任意の一般名詞を作成する際に大量の録音単語が必要となり,作成出 来る音声の数が少ないといった問題がある.
その問題を解決するために,従来研究において,音節波形接続型音声合成法に, 言語情報とMFCCの距離尺度の両方を用いた木に基づくクラスタリング(以下,ク ラスタリング[3])を適用する手法が提案された [4,5].本研究では,上記の手法を``音響クラスタリング法'' と呼ぶ.``音響クラスタリング法'' は,音節素片選択時に7つの言語情報の条件 を完全に一致させるのではなく,一部の言語情報の条件を言語情報とMFCCの距離 尺度の両方を用いたクラスタリングの結果を用いて緩和する.言語情報の条件を 緩和することで,理論上全ての音声が作成可能であると示された.しかし,音声 品質の非常に悪い音声が生成されてしまう場合があった.本研究では,この原因 として,音声合成において,MFCCの距離尺度は,音声品質との相関が低いためで あると考えている.そこで本研究では,MFCCの距離尺度の代わりに,言語情報と 人間の聴覚的な知識を用いてクラスタリングを行い,音節波形接続型音声合成法 に適用した.本研究では上記の手法を``言語クラスタリング法''と呼ぶ.以上よ り本研究では,``言語クラスタリング法''で作成した合成音声の音声品質調査を 目的とする.音声品質調査には,オピニオン評価実験および対比較実験を用いた.
オピニオン評価実験の結果,``言語クラスタリング音声''が3.22,``音響クラス タリング音声''が2.48という値を得た.また,対比較実験の結果,``言語クラス タリング音声''が77.8%,`` 音響クラスタリング音声''が22.2%となった.聴 覚実験の結果より,``言語クラスタリング音声''は,`` 音響クラスタリング音 声''より高い音声品質であると示され,``言語クラスタリング法''の有効性を確 認した.
以降,2章,3章,4章で音節波形接続型音声合成,``音響クラスタリング法'', ``言語クラスタリング法''について説明する.また5章で``言語クラスタリング 法''の音声品質調査実験について報告し,6章で実験結果について考察する.最 後に7章で本研究をまとめる.