汎用な文の分散表現 (universal sentence representation) の評価ツールキット SentEval を提供する.
単語の分散表現については成功しつつある. 次は転移学習も容易なドメインに特化しない汎用の universal sentence representation が求められている. それに備えて使いやすい評価ツールを整備しておく必要がある.
SentEval は公平に評価するためのものであるので次を目指す.
大きく5種類のタスクで転移学習して評価する.
テキスト分類をさせる. これには次の7種類を行う.
文ベクトルからロジスティック回帰か MLP で予測させる. MR,CR,SUBJ,MPQAについては 10-fold の nested 交差検証 で評価する. TREC はただの交差検証で, SST は標準の検証 (そういうのがある?).
意味含意 (entailment) には SNLI, SICK-E データセット, Relatedness には SICK-R データセットと STB ベンチマークを用いる. Relatedness は二文の意味的関連を [0,5] のスコアで予測させる.
STSタスクを用いる. 英文同士に人手で関連性を [0,5] のスコアでついており, 文ベクトルどうしの cosine 類似度とそのスコアの Peason and Spearman 相関係数を SentEval は報告する.
STS は 2012 から 2016 までのバージョンがあるので, SentEval はそれらの結果の平均を取る.
Microsoft Research Paraphrase Corpus (MRPC) を用いる. これは web のニュース記事から人手で集めてきた, 言い換え表現の文のペアが収録されている. SentEval はこれについて二値分類 (paraphrase/not) を予測させる.
COCO を用いる. これは 113k の画像とそれぞれに 5 つのキャプションテキストが収録されている. 行うタスクはクエリとなるキャプションから適切な画像をランク付けする Image Retrieval と, 逆に, クエリとなる画像から適切なキャプションをランク付けする Caption Retrieval.
画像からベクトルには事前学習済みの ResNet-101 を用いて 2048 次元ベクトルを用いる.