Text Categorization with Suport Vector Machines: Learning with Many Relevant Features

自然言語処理 テキスト分類

概要

SVM でテキスト分類します

  1. 語の出現回数を数える
  2. この時点で、10,000次元かそれ以上になる
  3. idfを用いてスケーリングし直す。今回は tfc なる量を使う (意味不明)
  4. 文ごとの長さの違いを無くす (abstract) ために、素性ベクトルを正規化する