認識に使用する単語は,偶数番号の中から,4モーラで発話時間が ほぼ同じ単語を20個選び,そのうちの10単語を男性話者が,残りの10単語を女性話 者が発声したとする.垂直のモデルを作成時,音素が8個では,セグメンテーションエラーがおきるために, 7個以下とした.
本実験で行う認識は,全て音声認識ツールHTK[5]を使用する.
| 男性話者 | 女性話者 |
| 悪質(akusitsu) | 足元(asimoto) |
| 聞こえる(kikoeru) | 可愛い(kawaii) |
| 加える(kuwaeru) | 勤勉(kiNbeN) |
| 失恋(shitsureN) | 答える(kotaeru) |
| 垂直(suichoku) | すまない(sumanai) |
| そのうち(sonouchi) | 対策(taisaku) |
| 中毒(chuudoku) | 手拭い(tenugui) |
| 内容(naiyou) | 天才(teNsai) |
| 暴力(bouryoku) | 微笑む(hohoemu) |
| 論じる(roNjiru) | 洋服(youfuku) |
| 入力音声番号 | 男性話者 | 女性話者 |
| 1 | 悪質 | 足元 |
| 2 | 悪質 | 可愛い |
| 3 | 悪質 | 勤勉 |
| 4 | 悪質 | 答える |
| 5 | 悪質 | すまない |
| 6 | 悪質 | 対策 |
| 7 | 悪質 | 手拭い |
| 8 | 悪質 | 天才 |
| 9 | 悪質 | 微笑む |
| 10 | 悪質 | 洋服 |