NMTにある6つの課題を調査した.
NMT は Nematus (2017) っていうツールが現時点で最強らしい. (中身は attention 付き encoder-decoder でいいのかな?) 基本、デフォルトの設定で使う. 語彙数が 50,000 になるように subword の数を設定する.
SMT として Moses (2007) を使う. この論文の著者の Philipp Koehn が作者だった. もっと他にもいいのがあるよと言ってるが、Statisticalなのはもう全部2007年で終わってる.
データには, 単なる翻訳タスクには WMT (http://www.statmt.org/wmt17/) を、 ドメインでの違いを調べる用には OPUS corpus (http://opus.lingfil.uu.se/) を用いた.
例えば二行目は Law で学習した結果を各ジャンルに適用した結果. 各項目で左(黄緑)がNMTでの結果で、右(青)がSMT. NMTの方がドメインの違いに弱いことがよく分かる. Figure 2 の Medical とかもなかなかすごい.
上がり方は NMT の方が顕著. 語彙数が少ない時は SMT の方がマシで、 2 billion 単語数 (2e9) 程度でSMTに打ち勝てる.
知らん
文長と精度は関係がある. よく言われているのは、encoder-decoder はあんまり長い文を正しく変換する能力はない.
実際の予測時、高い確率を持つ列をサンプリングするのにビームサーチが普通使われる. 一般にビームサイズを増やせば増やすほど最適解に近づくはずだが、BLEUで測ると上に凸の折れ線グラフを描く.
ビームサイズは凡そ4から30程度が最適らしい. 詳しく書いてないけど、文長によって normalize する手法があるらしい.