多くの論文に出現する単語は記載必要項目である可能性が高いと考える. 本研究では, 全論文を出現論文数で割ることで出現率を算出し, 出現率の高い単語を調査する. さらに, 出現率の高い単語に類似している単語は記載必要項目の検出に役立つ単語であると考え, 類似している単語を調査する. 出現率の高い単語とその単語に類似している単語を参考に人手で検討し, 記載必要項目とその項目の検出に役立つ単語を決定する.
決定した記載必要項目の検出に役立つ単語が一つもない論文を記載必要項目が欠落している論文であると判別する. このようなルールで判別し, ルールベースを利用して記載必要項目が欠落している論文を自動検出する.
本研究で決定した記載必要項目のうち「重要性」「新規性」以外の項目を検出することができた. さらに「比較」「問題」「目的」はF値が0.6から0.7で検出でき, 「例」はF値が0.86で検出できた. それぞれの結果はベースラインよりもF値が高かった.