区別 | 日本語文型パターン又は日本文 | 英語文型パターン又は英文 | |
単 | 文型パターン | それは/に/あるまじき。 | Such be unseemly for . |
語 | 言語表現例 | それは学生にあるまじき行為だ。 | Such behavior is unseemly for students. |
レ | 文型パターン | # 1[は]/の//ことも/# 2[ある/程度は] |
# 1[|I]can what # 2[to some |
ベ | /. | extent]. | |
ル | 言語表現例 | 次郎の言うこともある程度はわかる。 | I can understand what Jiro says to some |
extent. | |||
文型パターン | あれこれ/が/が/。 | All things , 's . | |
句 | 言語表現例 | あれこれ考えてみたがそれがいちばんいい解 | All things considered, that's the best solution. |
レ | 決策だ。 | ||
ベ | 文型パターン | # 1[は]/も/とは// |
It is that # 1[|you] should |
ル | ことだ。 | . | |
言語表現例 | 総理大臣の名前も知らないとはまことに哀れ | It is really pitiable that you should not know | |
むべきことだ。 | the Prime Minister's name. | ||
文型パターン | [は]/とは/。 | # 1[|I]did . |
|
節 | 適用例 | 彼があれほど英語が話せるとは思わなかっ | I didn't know he could speak English so well. |
レ | た。 | ||
ベ | 文型パターン | と/は/。 | that . |
ル | 言語表現例 | 彼女はもうぼくを愛していないのだとぼくは | I convinced myself that she did not love me |
自分に言い聞かせた。 | any more. |
文種別 | 標本文数 | 作成した文型パターン数():重なり文型パターン数 | |||
単語レベル | 句レベル | 節レベル | 合計 | ||
文種別1 | 57,235 (44%) | 56,883 (3,305) | 45,241 (7,885) | 6,343 (822) | 108,467 (12,012) |
文種別2 | 6,196 (5%) | 6,179 (99) | 5,079 (127) | 424 (7) | 11,682 (233) |
文種別3 | 46,907 (36%) | 46,684 (2,676) | 38,654 (7,722) | 3,807 (622) | 89,145 (11,020) |
文種別4 | 5,986 (5%) | 5,973 (84) | 5,307 (223) | 874 (63) | 12,154 (370) |
文種別5 | 12,389 (10%) | 12,352 (178) | 10,338 (313) | 1,583 (32) | 24,273 (523) |
−− | 128,713 (100%) | 128,071 (6,342) | 104,619 (16,270) | 13,031 (1,546) | 245,721 (24,158) |
単語レベルのパターン化では,標本文数128,713文中,642文は変数化される部分がないため,字面のみの文型パターンとして残され,128,071件の文型パターンが得られた.このうち6,342件(5%)は,互いに同一のパターンとなったため,異なり文型パターン数は121,729件である.
次に,句レベルのパターン化では,単語レベルで得られた文型パターンのうちの約82%がさらに汎化され,104,619件の文型パターンが得られた.このうち,16,270件(16%)は,同一の文型パターンとなったため,異なり文型パターン数は,88,349件である.
これに対して,節レベルで作成された文型パターンは13,031件で,単語レベルに比べて約1/10である.これは大半の対訳例文は非線形要素であり,汎化困難であること,すなわち,重文,複文構造の9割程度は,節の翻訳結果を組み合わせる従来の方法(要素合成法)では良い翻訳ができないことを示している.
なお,全文型パターンのうち,同一のものは1,546件(11.9%)であった.記述レベルの違いによる文型パターンの縮退の程度を見ると,単語レベル(5%)に比べて,句レベル(16%)は3倍以上大きい.これはほぼ予想されたところで,汎化するにつれて文型パターンは縮退することを意味している.
以上,3段階の文型パターン化で得られた文型パターンの総数は,字面パターンを含め,日本語文型パターン24.6万件であった.そのうち同一の文型パターンで縮退されるものは24,157件(9.8%)であるので,異なり文型パターンの合計は,221,564件である.