日英名詞句パタ−ン対において,同じ記述のパタ−ン対を1つにまとめて, パターン辞書とする.日本語パターンは,字面パタ−ンを含め,全部で23,834種 類あった.日本語名詞句の圧縮率は,52%であった.なお,意味属性,形態素調 整を付与したままである場合は,全部で35,289種類で,圧縮率22.7%であった.
パタ−ンを作るために用いたコ−パスの名詞句の分布を調べたところ,パタ−ン
化の元の名詞句が一番
多く使われていたパタ−ンが
であり,その名詞句の数は3,719個であった.
以下,上位10位までの日本語パタ−ンと,それに対する英語パタ−ンの頻度の多
かった上位2位とその他を表8に示す.
コ−パスの名詞句が1,000個以上であったパタ−ンが4件,999〜100個であったパタ−ンが14件,99〜20個であったパタ−ンが 56件,29〜1個であったパタ−ンが23,735件であった.この日本語パタ−ンに対する英語パタ−ンの頻度を図1に示す.
表8を見ると,英語パターンが第1位の割合が高い日本語パターンにおいては,そのま ま第一位の英語パターンを適応すれば,良い翻訳ができそうにみえる.しかし, ``N1のN2''や``AJ1N2''などは,対応する英語パターンにおいてばらつきがあり, 英語パターンの選択をする必要がある.
| 日本語パターン | 英語パターン | |||
| 句の数 | 1位 | 2位 | 3位 | その他 [種類数] |
|
|
|
|
the |
その他[101] |
| 3,719個 | (87.0%) | (5.6%) | (1.7%) | (5.7%) |
|
その |
the |
his |
this |
その他[41] |
| 3,686個 | (97.2%) | (0.4%) | (0.2%) | (2.2%) |
|
|
|
|
|
その他[38] |
| 1,936個 | (97.2%) | (0.2%) | (0.1%) | (2.5%) |
|
|
the |
|
the |
その他 [186] |
| 1,224個 | (12.5%) | (11.8%) | (10.1%) | (65.6%) |
|
この |
the |
|
those |
その他 [17] |
| 719個 | (95.3%) | (0.7%) | (0.4%) | (3.6%) |
|
|
|
|
|
その他 [6] |
| 661個 | (99.2%) | (0.2%) | (0.2%) | (0.4%) |
|
|
|
a |
the |
その他 [35] |
| 524個 | (46.1%) | (34.9%) | (8.0%) | (11.0%) |
|
その |
the |
their |
my |
その他 [8] |
| 496個 | (97.3%) | (0.4%) | (0.4%) | (1.9%) |
|
|
|
|
the |
その他[21] |
| 461個 | (76.4%) | (10.6%) | (2.0%) | (11.0%) |
|
|
|
a |
the |
その他[34] |
| 381個 | (45.1%) | (25.7%) | (12.1%) | (10.8%) |
| 日本語パターン | 元の日本語句 | 英語パターン |
| 元の英語句 | ||
| あの建物 | |
|
| The building | ||
| 近くの病院 | |
|
| nearby hospital | ||
| その |
その会社 | the |
| the company | ||
| その秘密 | the |
|
| the secret | ||
| その手紙 | his |
|
| his letter | ||
| |
彼の性格 | |
| his character | ||
| 私の過去 | |
|
| my past | ||
| |
国の将来 | the |
| the future of the country | ||
| 列車の時間 | |
|
| train time | ||
1〜73まで書いてある軸は,「日本語パタ−ンの順位」を表しています. 1が日本語パタ−ン第1位の