手法 | 再現率 | 適合率 | F値 | ||||
ベースライン | 1.00 | (59/59) | 0.19 | (59/305) | 0.32 | ||
ルールベース | 0.58 | (34/59) | 0.60 | (34/57) | 0.59 |
手法 | 再現率 | 適合率 | F値 | ||||
ベースライン | 1.00 | (114/114) | 0.37 | (114/305) | 0.54 | ||
ルールベース | 0.61 | (70/114) | 0.80 | (70/87) | 0.69 |
手法 | 再現率 | 適合率 | F値 | ||||
ベースライン | 1.00 | (94/94) | 0.31 | (94/305) | 0.47 | ||
ルールベース | 0.53 | (50/94) | 0.60 | (50/84) | 0.56 |
手法 | 再現率 | 適合率 | F値 | ||||
ベースライン | 1.00 | (9/9) | 0.03 | (9/305) | 0.06 | ||
ルールベース | 1.00 | (9/9) | 0.75 | (9/12) | 0.86 |
「重要」「異なる」などを学習データでルールベースで処理し, 人手での判別基準を検討したが, ルールベースの性能が低いことがわかった. これは「重要」「異なる」などの人手の判別基準の設定が困難であったことが原因であると考える. これについては5.6.2節で考察する.