next up previous contents
次へ: おわりに 上へ: 考察 戻る: 特定話者音声認識との比較   目次

追加実験

本研究では,混合HMMを作成する音素数の基準を$n = 10,20,30$とした.しかし, 164単語の学習データにおいては,30個以上の音素が多く存在しているため, $n = 40,50$として混合HMMを作成することも可能である.本節では,164単語の 学習データを用いた際の40個未満混合HMM,50個未満混合HMMを作成し,認識精度 の調査を行った.

通常の164単語の学習データを用いた場合の実験結果を表 16に,偏りを持つ164単語の学習データを用いた場合の 実験結果を表17に示す.


表 16: 164単語の学習データを用いた混合HMMの実験結果
10個未満 20個未満 30個未満 40個未満 50個未満
話者適応 混合HMM 混合HMM 混合HMM 混合HMM 混合HMM
mau 86.87% 90.69% 91.45% 91.45% 91.30% 91.18%
(2276/2620) (2376/2620) (1396/2620) (2396/2620) (2392/2620) (2389/2620)
mmy 87.63% 89.54% 90.95% 90.95% 89.85% 90.15%
(2296/2620) (2346/2620) (2383/2620) (2383/2620) (2354/2620) (2362/2620)
mnm 85.50% 88.97% 89.20% 89.20% 87.63% 88.70%
(2240/2620) (2331/2620) (2337/2620) (2337/2620) (2296/2620) (2324/2620)
faf 87.98% 91.30% 91.95% 91.95% 90.80% 90.73%
(2305/2620) (2392/2620) (2409/2620) (2409/2620) (2379/2620) (2377/2620)
fms 84.77% 89.73% 90.61% 90.61% 89.39% 90.34%
(2221/2620) (2351/2620) (2374/2620) (2374/2620) (2342/2620) (2367/2620)
ftk 86.37% 89.85% 92.79% 92.79% 91.60% 91.64%
(2263/2620) (2354/2620) (2431/2620) (2431/2620) (2400/2620) (2401/2620)
平均 86.52% 90.01% 91.16% 91.16% 90.10% 90.46%
(13601/15720) (14150/15720) (14330/15720) (14330/15720) (14163/15720) (14220/15720)



表 17: 偏りを持つ164単語の学習データを用いた混合HMMの実験結果
10個未満 20個未満 30個未満 40個未満 50個未満
話者適応 混合HMM 混合HMM 混合HMM 混合HMM 混合HMM
mau 91.64% 91.64% 92.06% 92.06% 91.56% 91.26%
(2401/2620) (2401/2620) (2412/2620) (2412/2620) (2399/2620) (2391/2620)
mmy 91.30% 91.30% 91.11% 91.11% 89.85% 87.82%
(2392/2620) (2392/2620) (2387/2620) (2387/2620) (2354/2620) (2301/2620)
mnm 89.85% 89.85% 90.15% 90.15% 88.85% 87.75%
(2354/2620) (2354/2620) (2362/2620) (2362/2620) (2328/2620) (2299/2620)
faf 91.72% 91.72% 92.60% 92.60% 91.91% 90.11%
(2403/2620) (2403/2620) (2426/2620) (2426/2620) (2408/2620) (2361/2620)
fms 89.05% 89.05% 89.54% 89.54% 88.40% 87.98%
(2333/2620) (2333/2620) (2346/2620) (2346/2620) (2316/2620) (2305/2620)
ftk 91.60% 91.60% 93.40% 93.40% 92.90% 91.30%
(2400/2620) (2400/2620) (2447/2620) (2447/2620) (2434/2620) (2392/2620)
平均 90.86% 90.86% 91.48% 91.48% 90.58% 89.37%
(14283/15720) (14283/15720) (14380/15720) (14380/15720) (14239/15720) (14049/15720)

164単語の混合HMMを用いた場合の6話者の平均誤り率を図14に, 偏りを持つ164単語の混合HMMを用いた場合の6話者の平均誤り率を図 15に示す.

図 14: 164単語の学習データを用いた実験結果
\fbox{
\includegraphics[scale=0.33]{eps/result3_164.eps}
}


図 15: 偏りを持つ164単語の学習データを用いた実験結果
\fbox{
\includegraphics[scale=0.33]{eps/result4_164.eps}
}

結果より,30個未満混合HMMが最も高い認識精度だとわかる.40個未満・50個未 満混合HMMを用いた場合,30個未満混合HMMより認識精度が低下し不特定話者の認 識精度に近付いている.

本研究の条件では30個未満混合HMM($n$=30)を用いることで最も高い認識精度が 得られるが,この$n$の最適値は,用いるデータベースや学習方法によって変化す ると考えらる.また音素の種類によっても,学習データ量による認識精度の違い があるため,音素ごとの$n$の値を調べる必要があると考えている.


next up previous contents
次へ: おわりに 上へ: 考察 戻る: 特定話者音声認識との比較   目次
平成20年3月11日