次へ: a3:段落内文頭に連体詞や接続詞が出現するか否か
上へ: 提案手法に用いる素性
戻る: a1:段落内に出現する品詞とその単語
目次
段落は複数の文から構成されるため,
助詞「は」が多く出現する.
一般に文中の助詞「は」より前方は新しい内容を表し,助詞「は」より後方は古い内容を示している.
この情報を素性として組み込むために以下を行う.
まず,段落を文ごとに区切る.
各文に対して助詞「は」を含む場合,その助詞「は」を境にして,
その文を前部・後部の2つに分け,前部と後部についてそれぞれ異なる素性とする.
データ内では,前部に対しを新,後部に対し旧と表現し「(新/旧)品詞:単語」として
素性を組み込んでいる5.2.
文に対して,助詞「は」が2つ以上出現する場合は,初めに出現する「は」を境にして2つに分ける.
また,文中に1つも助詞「は」が出現しない場合は,全て後部と考えて素性とする.
以下の例5.2では,区切るまでを示す.(出現する品詞とその単語に整理するのは素性a1の例参照)
段落を文ごとにわけ,助詞「は」を含む文(文2)は「は」で文を区切り前部と後部でわけ,
助詞「は」を含まない文(文1)は後部として用いる.
平成27年3月4日