A Re-Examination of Text Categorization Methods (1999)

自然言語処理 テキスト分類 機械学習

次の5つの分類器によって テキスト分類 する実験が世の中に散在してる。 (e.g. Text Categorization with Suport Vector Machines, 1998)

  1. SVM
  2. kNN
  3. LLSF
  4. NNet
  5. NB

コーパスが違ったり、統計量検定が無かったりなので、 一回綺麗に実験し直そうというもの.

手法

分類器の原理は解説してあるけど、素性の使い方とか詳しくないからだめだ.

結論

{SVM, kNN} > LLSF > NNet >> NB

Figure-4, 5 は、トピックごとの micro,macro-F1 を、 トピックの頻度で並べて線でつないだもの (何かの収束する様子かと思ってしまった)