Exploring Twitter Hashtags

2011年の論文なので古い部類だろうなあ

Intro

SMS language

Twitter-specific forms

@merazindagi Thanks! Will make more 4 U. Live performances in #boulder area will be on http://saxy.us :) #jazz #rock #funk #dance #livemusic

ハッシュタグはそのツイートが何の目的であるかを教えてくれるが、複数のツイートが沢山含まれるようなものは一体何なのかわからなくなる. そこで、co-occurrences に基づく辞書の構築を目指す. 分類器の構成を考え，最終的にアプリケーションを作成する

29,000,000 tweets から、ノイズの少ない 310,000 種類のハッシュタグは取り除いて、 85,503 種類を使った

共起 where ハッシュタグ \(h_i, h_j\) :

\[C(h_i, h_j) = \# \{ t : t \in \text{tweets}, \text{has}(t, h_i) \land \text{has}(t, h_J) \}\]

辞書:

\[D(h) = \{ (h', C(h, h')) : h \ne h' \}\]

\[\text{synnet}: h \mapsto s\]

類似度関数:

\[S(h_1, h_2) = \max \{ S'(s_1, s_2 : s_1 \in \text{synset}(h_1), s_2 \in \text{synset}(h_2) \}\]

\(S'\) として、

PythonのnltkのWordNet module には、次の2種類が組み込まれている

それぞれ、Spath, Swp と呼ぼう．

どちらも数字が大きいほうが近いことを意味する

実際の値を見てみると、

	Spath	Swp
共起ハッシュタグ	0.12	0.37
Twitter (ランダムな2単語)	0.07	0.26

って感じ．

共起してたら枝をつなぐ，でグラフがかけた．連結成分というクラスらリングもできる．

まあハッシュタグは何かそのものを表しているわけだけど，

に分類するのを第一目標とする

例として，

最大エントロピー (MaxEnt) で学習する