まず,辞書や日本語教材をはじめとする約30種類の対訳データファイルから作成した100万文の対訳コーパスから,重文,複文15.5万件の対訳文を機械的に抽出した.その中には,会話文や文脈依存の訳文が含まれていたため,それらを人手で振るい分け,12.9万件を標本文として3種類の文型パターンを作成した.表3に抽出した対訳文と文型パターン化の対象とした標本文の内訳を示す.
対象文に含まれる単語の種類と数を表4に示す.また,対訳標本文の平均文字数などを以下に示す.
平均形態素数=12.9個/文(最大63個)
# | 種別 | 形態素数 | |
延度数 | 異り語数 | ||
1 | 名詞 | 417,886 | 56,861 |
2 | 本動詞 | 223,178 | 10,324 |
3 | 補助動詞 | 51,918 | 271 |
4 | 形容詞 | 31,681 | 915 |
5 | 形容動詞 | 19,587 | 2,562 |
6 | 副詞 | 39,051 | 3,191 |
7 | 連体詞 | 32,585 | 731 |
8 | 接続詞 | 3,146 | 77 |
9 | 感嘆詞 | 147 | 60 |
10 | 接頭辞 | 1,068 | 110 |
11 | 接尾辞 | 1,749 | 336 |
12 | 助動詞 | 165,251 | 236 |
13 | 助詞 | 465,811 | 349 |
14 | 記号 | 121,555 | 32 |
− | 合 計 | 1,574,613 | 76,055 |
文型パターン化作業の結果を確認するため,文型パターン照合プログラムを用意し,作成された全文型パターンに対する照合実験を行った.作成した文型パターンの総数と不適切文型パターン数の推移を表5に示す.
この実験では,文型パターンの作成に使用した標本文を入力文として文型パターン辞書を検索し,適合する文型パターンの中に,自分自身から作成された文型パターン(「自己パターン」と言う)が含まれるかどうかを確認した.
その結果,最初の段階では,単語レベル,句レベル,節レベルで,それぞれ45%,18%,35%の文型パターンに誤りがあることが判明したが,誤りの多くは,自動変数化プログラムに組み込まれた規則と文型パターン記述仕様との不整合に起因するもので,人手修正の必要な文型パターンの記述誤りは約5,000件であった.節レベルでは,まだ18%の不適合パターンを残しているが,この大半は,文型照合プログラムの機能不足により照合に失敗しているもので,文型パターン記述の誤りは少ないと思われる.
以上の結果,文法レベルにおいて約24.6万件の文型パターンをほぼ1年間(3.4人年)で作成することができた.人手作業に頼る場合に比べて,作業工数は,約1/10に減少したものと推定される.