Co-training for Semi-supervised Sentiment Classification Based on Dual-view Bags-of-words Representation
- レビューテキストの極性判定. BOW. 線形回帰 (liblinear L2)
- 半教師アリにしたい
-
"we propose a dual-view co-training approach based on dual-view BOW representation for semi-supervised sentiment classification."
-
単にオリジナルのテキストの pos/neg を学習するのではなくて、そのちょうど反対 (neg/pos) がどんなであるかも学習する
- posな文を学習するときに、一緒にnegも必ず学習する
-
自動で対なる2レビューを人工的に生成する
- negator (not) を取り除く
-
sentiment word は全部対義語で置き換える
-
dual-view co-training
-
ラベル付き学習データ \(L_o\) (original)
- 2値分類器 \(h_o (x \mapsto y \in \{0,1\})\)
-
対になるように作ったデータ \(L_a\) (antonymous)
- 2値分類器 \(h_a (x \mapsto y \in \{0,1\})\) を作成
- これらを合わせたような \(h_d\) というものを作ることを考える
-
ラベルなし \(x_o\) について対 \(x_a\) を作成する
assert
\(h_o(x_o) \ne h_a(x_a)\) 一方が pos のとき neg であるべきである
-
それが満たされた場合だけ、それぞれを \(L_o\) , \(L_a\) に追加
- ある程度たまったら \(h_o\) , \(h_a\) を更新する
-
最終的な予測としては \(h_o\) \(h_a\) の両方を使いたい