next up previous
次へ: 変数・関数の使用頻度 上へ: 重文と複文の文型パターン化 戻る: 対象例文と作業の状況

作成された文型パターンの例と数

作成した文型パターンの例を表6に示す.また,その数の内訳を表7に示す.


表 6: 文型パターンによる非線形構造の記述例
区別 日本語文型パターン又は日本文 英語文型パターン又は英文
文型パターン それは/$N1$に/あるまじき$/N2.da$ Such $N2$ be unseemly for $N1$.
言語表現例 それは学生にあるまじき行為だ。 Such behavior is unseemly for students.
文型パターン #1[$N1$は]/$N2$の/$V3$/ことも/#2[ある/程度は] #1[$N1$|I]can $V5$ what $N2$ $V3$ #2[to some
/$V5$. extent].
言語表現例 次郎の言うこともある程度はわかる。 I can understand what Jiro says to some
extent.
文型パターン あれこれ/$V1.temiru.ta$が/$N2$が/$NP3.da$ All things $V1.past$, $N2$'s $NP3$.
言語表現例 あれこれ考えてみたがそれがいちばんいい解 All things considered, that's the best solution.
決策だ。
文型パターン #1[$N1$は]/$NP2$も/$V3.nai$とは/$VP4.gimu$/ It is $AJP(VP4)$ that #1[$N1$|you] should
ことだ。 $V3.not$ $NP2$.
言語表現例 総理大臣の名前も知らないとはまことに哀れ It is really pitiable that you should not know
むべきことだ。 the Prime Minister's name.
文型パターン $N1$は]/$CL2$とは/$V3.nai.kako$ #1[$N1$|I]did $V3.not$ $CL2.past$.
適用例 彼があれほど英語が話せるとは思わなかっ I didn't know he could speak English so well.
た。
文型パターン $CL1.teiru.nai.da$と/$N2$は/$VP3.kako$ $N2$ $VP3.past$ that $CL1.not$.
言語表現例 彼女はもうぼくを愛していないのだとぼくは I convinced myself that she did not love me
自分に言い聞かせた。 any more.


表 7: 対訳標本文数と作成した文型パターン数
文種別 標本文数 作成した文型パターン数():重なり文型パターン数
単語レベル 句レベル 節レベル 合計
文種別1 57,235 (44%) 56,883 (3,305) 45,241 (7,885) 6,343 (822) 108,467 (12,012)
文種別2 6,196 (5%) 6,179 (99) 5,079 (127) 424 (7) 11,682 (233)
文種別3 46,907 (36%) 46,684 (2,676) 38,654 (7,722) 3,807 (622) 89,145 (11,020)
文種別4 5,986 (5%) 5,973 (84) 5,307 (223) 874 (63) 12,154 (370)
文種別5 12,389 (10%) 12,352 (178) 10,338 (313) 1,583 (32) 24,273 (523)
−− 128,713 (100%) 128,071 (6,342) 104,619 (16,270) 13,031 (1,546) 245,721 (24,158)

単語レベルのパターン化では,標本文数128,713文中,642文は変数化される部分がないため,字面のみの文型パターンとして残され,128,071件の文型パターンが得られた.このうち6,342件(5%)は,互いに同一のパターンとなったため,異なり文型パターン数は121,729件である.

次に,句レベルのパターン化では,単語レベルで得られた文型パターンのうちの約82%がさらに汎化され,104,619件の文型パターンが得られた.このうち,16,270件(16%)は,同一の文型パターンとなったため,異なり文型パターン数は,88,349件である.

これに対して,節レベルで作成された文型パターンは13,031件で,単語レベルに比べて約1/10である.これは大半の対訳例文は非線形要素であり,汎化困難であること,すなわち,重文,複文構造の9割程度は,節の翻訳結果を組み合わせる従来の方法(要素合成法)では良い翻訳ができないことを示している.

なお,全文型パターンのうち,同一のものは1,546件(11.9%)であった.記述レベルの違いによる文型パターンの縮退の程度を見ると,単語レベル(5%)に比べて,句レベル(16%)は3倍以上大きい.これはほぼ予想されたところで,汎化するにつれて文型パターンは縮退することを意味している.

以上,3段階の文型パターン化で得られた文型パターンの総数は,字面パターンを含め,日本語文型パターン24.6万件であった.そのうち同一の文型パターンで縮退されるものは24,157件(9.8%)であるので,異なり文型パターンの合計は,221,564件である.


next up previous
次へ: 変数・関数の使用頻度 上へ: 重文と複文の文型パターン化 戻る: 対象例文と作業の状況
平成16年8月30日