2011年の論文なので古い部類だろうなあ
SMS language
Twitter-specific forms
@merazindagi Thanks! Will make more 4 U. Live performances in #boulder area will be on http://saxy.us :) #jazz #rock #funk #dance #livemusic
ハッシュタグはそのツイートが何の目的であるかを教えてくれるが、 複数のツイートが沢山含まれるようなものは一体何なのかわからなくなる. そこで、co-occurrences に基づく辞書の構築を目指す. 分類器の構成を考え,最終的にアプリケーションを作成する
29,000,000 tweets から、 ノイズの少ない 310,000 種類のハッシュタグは取り除いて、 85,503 種類を使った
共起 where ハッシュタグ \(h_i, h_j\):
\[C(h_i, h_j) = \# \{ t : t \in \text{tweets}, \text{has}(t, h_i) \land \text{has}(t, h_J) \}\]
辞書:
\[D(h) = \{ (h', C(h, h')) : h \ne h' \}\]
\[\text{synnet}: h \mapsto s\]
類似度関数: \[S(h_1, h_2) = \max \{ S'(s_1, s_2 : s_1 \in \text{synset}(h_1), s_2 \in \text{synset}(h_2) \}\]
\(S'\) として、
PythonのnltkのWordNet module には、 次の2種類が組み込まれている
それぞれ、Spath, Swp と呼ぼう.
どちらも数字が大きいほうが近いことを意味する
実際の値を見てみると、
Spath | Swp | |
---|---|---|
共起ハッシュタグ | 0.12 | 0.37 |
Twitter (ランダムな2単語) | 0.07 | 0.26 |
って感じ.
共起してたら枝をつなぐ,でグラフがかけた. 連結成分というクラスらリングもできる.
まあハッシュタグは何かそのものを表しているわけだけど,
organization
geolocation
person
event
: particular interest on Twittercategory
: all other hashtagsに分類するのを第一目標とする
例として,
class | example hashtags |
---|---|
organization | #google, #nokia |
geolocation | #europe, #uk, #graz |
person | #obama, #madonna |
event | #christmas, #election |
category | #fun, #math, #ipod |
最大エントロピー (MaxEnt) で学習する