Unsupervised Word Usage Similarity in Social Media Texts

自然言語処理 教師ナシ学習 類似度学習

Intro

あるツイートに出現した単語 (paper) が 別のツイートに出現した場合に、 それらが同じような使われ方をしてるかどうかを、 1 から 5 の整数で表す。

これは WSD (paper = 紙、論文) にも繋がるタスクである。

Data

データの作り方を説明する。 ツールの話は役立つはずだ。

langid.py はツイートが英語かどうかを判別するのに用いた。

the dictionary of Han et al. (2012) で、俗的略語 (tmrw) を正規化 (-> tomorrow) した。

あと、単語として Erk et al. (2009) に倣った bar, charge, execution, field, figure, function, investigator, match, paper, post の10の名詞を用いる。

形態素解析として CMU Twitter POS tagger (Owoputi et al., 2012) を用いた。 Twitterで学習したような何からしい。 これTwitter NLP and Part-of-Speech Tagging - CMU ARK Labかな?

Background corpus

目的の単語を必ずどれか含むツイート 1 million 程度

Method

まず、単語の二次の共起頻度ベクトルをとる。 二次のそれが何であるかは A cooccurrence-based thesaurus and two applications to information retrieval を参考するべき。 ただの共起頻度ベクトルよりも良いものであるらしい。

Background corpus 中の人気トップ 10k 単語との共起を見る。

で、LDAしただけ?

Result

別にそんなによくない。 \(0.3\) とかだ