2011年の論文なので古い部類だろうなあ
SMS language
Twitter-specific forms
@merazindagi Thanks! Will make more 4 U. Live performances in #boulder area will be on http://saxy.us :) #jazz #rock #funk #dance #livemusic
ハッシュタグはそのツイートが何の目的であるかを教えてくれるが、 複数のツイートが沢山含まれるようなものは一体何なのかわからなくなる. そこで、co-occurrences に基づく辞書の構築を目指す. 分類器の構成を考え,最終的にアプリケーションを作成する
29,000,000 tweets から、 ノイズの少ない 310,000 種類のハッシュタグは取り除いて、 85,503 種類を使った
共起 where ハッシュタグ \(h_i, h_j\) :
\[C(h_i, h_j) = \# \{ t : t \in \text{tweets}, \text{has}(t, h_i) \land \text{has}(t, h_J) \}\]辞書:
\[D(h) = \{ (h', C(h, h')) : h \ne h' \}\]類似度関数:
\[S(h_1, h_2) = \max \{ S'(s_1, s_2 : s_1 \in \text{synset}(h_1), s_2 \in \text{synset}(h_2) \}\]\(S'\) として、
PythonのnltkのWordNet module には、 次の2種類が組み込まれている
それぞれ、Spath, Swp と呼ぼう.
どちらも数字が大きいほうが近いことを意味する
実際の値を見てみると、
| Spath | Swp | |
|---|---|---|
| 共起ハッシュタグ | 0.12 | 0.37 | 
| Twitter (ランダムな2単語) | 0.07 | 0.26 | 
って感じ.
共起してたら枝をつなぐ,でグラフがかけた. 連結成分というクラスらリングもできる.
まあハッシュタグは何かそのものを表しているわけだけど,
organizationgeolocationpersonevent : particular interest on Twittercategory : all other hashtagsに分類するのを第一目標とする
例として,
| class | example hashtags | 
|---|---|
| organization | #google, #nokia | 
| geolocation | #europe, #uk, #graz | 
| person | #obama, #madonna | 
| event | #christmas, #election | 
| category | #fun, #math, #ipod | 
最大エントロピー (MaxEnt) で学習する