次の5つの分類器によって テキスト分類 する実験が世の中に散在してる。 (e.g. Text Categorization with Suport Vector Machines, 1998)
コーパスが違ったり、統計量検定が無かったりなので、 一回綺麗に実験し直そうというもの.
reuters-21578
を使う (1999時代のニュースタンダードらしい){micro,macro}-{s,t}検定
をする分類器の原理は解説してあるけど、素性の使い方とか詳しくないからだめだ.
{SVM, kNN} > LLSF > NNet >> NB
Figure-4, 5 は、トピックごとの micro,macro-F1 を、 トピックの頻度で並べて線でつないだもの (何かの収束する様子かと思ってしまった)