... 特定の概念(「複合概念」)を表現するための表現構造の要素のうち,他の要素(意味の異なる要素でも良い)に置き換えても表現構造全体の意味(「複合概念」[*]
(池原2003)によれば,言語表現は概念化された話者の認識を表し,単語は「単一概念」を表すのに対して複数単語からなる表現は「複合概念」で表す.すなわち,概念化されていない認識は言語(「直接的表現」)では表現されないから,以下では「言語表現の意味」と「言語表現の表す概念」を同義で使用する.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... そこで,各言語は複合概念を表すための様々な形式を持っていることに着目し,与えられた日本語表現の意味(複合概念)を英語表現によって記述することとする[*]
言語表現の意味をいかなる記法で記述しても計算機から見れば,単なる記号に過ぎないから,意味記述言語は,表現能力があり,相互矛盾のない体系であればよい.その点,自然言語は表現能力の高い言語である.そこで,目的言語を使用して原言語の意味記述を行うこととするが,この方法は,機械翻訳システム構成上,便利な方法と考えられる.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... 第1は文型パターンの線形要素の置き換え範囲(値域)の問題である.定義1は,他の要素に置き換えても表現構造全体の意味が変化しないような要素を線形要素としているが,これは実際にどんな要素に置き換えても良いことを意味しない[*]
例えば,「私は彼より背が高い.」の文において,「私」を「あなた」に置き換えても,この文が「2者比較」と言う「複合概念」を表す点での意味は変化しない.しかし,「私」を「川」や「月」などに置き換えると,表す複合概念が変化する以前に文としても成り立たなくなる.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... 2004)で提案された「文型パターン記述言語」を使用するが,文法レベルの情報を使用して文型パターンを記述することとし,変数の変域に対する意味的な制約条件は付与しない.また,語順の変更や文型要素の移動可能指定の機能も使用しない[*]
提案されている「文型パターン記述言語」では,変数の意味的制約条件の記述方法や文型要素の出現順序の可変性の指定方法等も規定されているが,本検討では,第1段階として文法的な属性のみの情報で記述された文型パターンを試作することを課題としている.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... 膨大な対訳例文から文型パターンを能率良く生成するため,対訳例文の形態素解析と構文解析情報を使用し[*]
文型パターン照合では入力文の構文解析情報は使用しないが,文型パターンの作成では使用する.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...,文型パターン作成の半自動化を目指す.そのため,機械的な変数化と関数化ができるよう,文型パターン作成に先立って元となる対訳標本文は形態素解析し,解析誤りは人手で修正しておくこととする[*]
構文解析の精度は形態素解析に比べて十分とは言えないため,予め標本文すべての解析結果を人手で修正するには多大なコストが必要となる.そこで,構文解析プログラムは,句変数化,節変数化などで構文情報が必要となる標本文に限って限定的に使用する.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... そこで,文型パターンがより多くの範囲の入力文に適合するようにするため,入力文と文型パターンの照合を制御するための離散記号を使用し[*]
この記号(スラッシュ記号”/”)は,文型パターン要素間(但し,文節境界)に挿入するもので,この記号がある位置は,原文任意要素が挿入されても良いことを意味する.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... 対訳例文において英語パターンで主語となる名詞が日本語側では記述されていない(ゼロ代名詞化されている)場合,日本語側パターンのゼロ代名詞の部分にパターン任意要素記号を使用して主語を補完する[*]
例えば,日本語文型パターンで省略された主語を[$N1$は]の形式で指定し,対応する英語側のパターンでは,該当する箇所を[$N1$|he]の形式で変数化したとする.この場合,この文型パターンを使用した翻訳では,日本文に$N1$に該当する要素のないときは,英語側のパターンでは”he”が使用される.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... なお,時制,相と様相に関する関数は削除しない.複合動詞も単語レベルでの汎化のままとする[*]
例えば,2つの従属節「彼は学校をさぼったため」と「彼は学校をさぼるため」では,前者は原因節,後者は「目的節」の意味になるから,句レベルの汎化で標準型を現在形とすることはできない.前者のパターンは過去形($.ta$関数を使用),後者のパターンは現在形を指定する必要がある.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... 変数化する範囲は,「命題命名のレベル」[*]
日本文は下記の4つのレベルの表現の入れ子構造で捉えられる.(1)対象領域(命題)のレベル:(i)事態命名のレベル(時制の関与なし),(ii)個別的現象のレベル(相,様相が関与),(2)主体領域(様相レベル:(iii)判断のレベル(断定の助動詞,形容詞「ない」),(iv)表現・伝達のレベル(各種助動詞).このうち,節変数化は,(i)のレベルを対象とする.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... 以上の結果,文法レベルにおいて約24.6万件の文型パターンをほぼ1年間(3.4人年)で作成することができた.人手作業に頼る場合[*]
日英対訳標本文から単語レベル,句レベル,節レベルの文型パターンの組を作成するのに30分かかると推定して,(30分/標本文)×15万標本文=450万分=37.5人年と見積される.なお,いずれの場合も作業者としては,英語の素養のあるベテランの日本語アナリストの動員が必要である.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... 従って,開発すべき文型パターン辞書の必要規模を推定するには,部分的な適合条件を考慮した被覆率評価試験により,文型パターン数と被覆率の関係を調べる必要がある[*]
文型パターン作成で使用した標本文を入力文として使用するクロスバリデーション法により,各入力文の文要素の何%が文型パターンで解釈可能かを考慮した被覆率実験では,単語レベル,句レベルの文型パターンの被覆率は,それぞれ70%,89%,78%であった.なお,詳細については,別途報告する.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... 文型パターン化では,各種の変数と関数のほか任意化などのための記号類が使用される.このうち,任意化の機能によって縮退する文型パターン数を調べた.その結果によれば,前者では,「パターン要素任意化」によって文型パターンが縮退する割合は0.2\%にとどまった[*]
パターン数圧縮の効果は予想以上に小さい値となったが,この「パターン任意要素」の表現法は,得られた文型パターンの適用範囲を拡大することを意図したものであり,被覆率向上効果は期待できる.これについては別途実験的に確認する予定である.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.