66000 Amazon reviewから77%の精度と、83.1%の再現率で、 文に対して皮肉かどうか判定した。
教師ありっぽい。 文に対して1~5の皮肉さが付与されている。
sarcasm : the activity of saying or writing the opposite of what you mean, or of speaking in a way intended to make someone else feel stupid or show them that you are angry (Macmillan English Dictionary 2007)
reviewのタイトル。
1は真っ当にカバーを褒めてる。 9は真っ当にけなしてる。 6がいかにも皮肉だ。(不眠症によく効く)
ドメインに特化したくない、一般的でありたいので、 製品の名前は [product] に置き換える。 同様に [company] [title] [author] と。 HTMLタグを除く。当たり前だ。
パターン集合をがんばって作る (Davidov and Rappoport 2006) 数100程度のパターンを得る。
e.g.
選別をする。 一般的すぎても特化すぎてもだめ。
マッチの度合い
let alpha = 0.1
gamma = 0.1
パターンの方に語をいくつか挿入したらマッチ -> 部分的 パターン中の変数CWをいくつか消したらマッチ -> 不完全なマッチ パターンの語数をN、マッチできた語数をnとする。
Garmin apparently does not care much abount product quality of customer support.
66000 reviews for 120 products をAmazonからあつめた。
productの種類はできるだけ様々に
まず、手でアノテートする。 positive (sarcasm) 80 reviews and negative 80 reviews. 合わせて 505 文。
で、あとは出来るだけ簡単に増やそう。 データを増やすのに 皮肉文の語でYahoo!検索してデータを増やした。 最初の6単語でやふーでぐぐる。 皮肉のレベルは元のと同じ
"This book was really good-until page 2"
から、 "this book was really good until" で検索。
"Gee, I thought this book was really good until I found out the author didnt get into Bread Loaf" を見つけた。
このように拡張して、 471 positive と、 5020 negative を集めた。
kNNっぽいことをする。 連続的な値についてのクラスタリングなので、 もうちっと、 平均を取るようなことをする。
star が低くて positive sentiment のやつ。