データ量に差があっても,閾値100のカバー率に差がない.
閾値500からはデータ量の差がでてくる.閾値1,000では,芸術がデータ量の割にカバー率が高
く,逆に社会科学は期待より低いカバー率
となった.コンピュータにおいては閾値100から閾値500カバー率の低下が大きかっ
た.
| カテゴリ名 | 解析後文数 | 閾値100 | 閾値500 | 閾値1,000 |
| 健康 | 1,459,137 | 98% | 92% | 89% |
| ビジネス | 1,528,314 | 97% | 92% | 84% |
| 各種資料 | 1,201,811 | 97% | 91% | 85% |
| メディア | 1,117,581 | 97% | 91% | 85% |
| 生活 | 914,820 | 96% | 90% | 83% |
| 社会科学 | 919,366 | 96% | 88% | 78% |
| エンター. | 838,258 | 95% | 89% | 81% |
| 趣味 | 768,074 | 96% | 88% | 79% |
| 教育 | 489,500 | 93% | 84% | 73% |
| 地域情報 | 613,197 | 94% | 83% | 70% |
| 政治 | 444,104 | 95% | 82% | 71% |
| 自然科学 | 538,653 | 94% | 80% | 68% |
| 芸術 | 528,302 | 95% | 84% | 72% |
| コンピュ. | 432,558 | 94% | 78% | 65% |