また、連鎖共起抽出方法・離散共起抽出方法のそれぞれに 長所短所があるので、両方を使って表現を抽出した。
以下には連鎖表現抽出方法・離散表現抽出方法それぞれから抽出された結果の例
を示す。
いよいよ〜する〜 | たって〜お願いする〜である(2) |
もしかしたら〜 | いた〜かもしれない(2) |
許す〜許さない〜 | 〜もっと〜にすれば〜住み〜くなるだろう(2) |
そのため〜 | 〜抱きながら〜送っている(2) |
〜足りないので〜 | すことにした(2) |
〜たら〜 | していただろう(2) |
離散表現は2つの連鎖表現が共起したものなので、間にある線によって表現が区 切られる。後ろに記してある数字は、その表現が原文中にでてきた回数である。
以下にはサンプルテストとして、算出した含有率が正しいかどうかしらべるため、 大規模コーパスにおける連鎖置き換えBと離散置き換えBの含有率を示す。
それぞれの抽出方法によって抽出された適正な表現の数の表を示す。
表中の適正表現数とはそれぞれの置き換えによって抽出された、重文複文に関する
表現の種類の合計数である。
また以下にデータ量に応じて、計算可能かどうか示した表を記す。
表にある1万文とは、今回使用したサンプルテストで使用した毎日新聞記事1万文
と同じで、1年分とは表現抽出で使用した毎日新聞記事1年分と同じデータである。
「可」と「不可」とは、抽出方法ごとに、計算機によるN-gram統計処理が
可能かどうかを表したものである。結果が出力されなかったものを計算不可と
した。