[2405.04517] xLSTM: Extended Long Short-Term Memory

深層学習

概要

Long Short-Term Memory (LSTM) の拡張版 xLSTM を提案する. ベンチマークで Transformer に肉薄する結果を出せた.

変更は3つ

  1. 指数ゲーティング (exponential gating)
  2. メモリ構造の変更
  3. 以上を残渣ブロックに統合した

LSTM

ベース

LSTM の初期バージョンは 1991 年には提案されていた. 仔細を省いて概略を描くと, 入力列 \(z_t\) を受け取って隠れ状態の列 \(h_t\) を次のような漸化式で求める.

\[c_t = f_t c_{t-1} + i_t z_t\] \[h_t = o_t c_t\]

ここで \(f, i, o\) がゲートと呼称されるもので, それぞれ forget, input, output を表現している.

多くの分野でLSTMは成功したが, 新たに出現した Transformer に比べるとさすがに弱い.

sLSTM

2つ新しいポイントがあって,

入力列 \(x_t\) について

さらに Milakov & Gimelshein, 2018 で提案された stabilizer テクニックがある. ただし exp にしてるのは本論文の新規性.

これで出来た \(i', f'\) で \(i,f\) を置き換えるというもの. exp すると値が大きくなりすぎて数値計算上オーバーフローしうるのでこれを使う.

mLSTM

\(\def\R{\mathbb{R}}\) LSTM のスカラーメモリを \(c \in \R\) から行列 \(C \in \R^{d \times d}\) に拡張する. Transformer でいうところの key/value を使うため.

xLSTM

sLSTM または mLSTM を組み込んだブロックを残渣ブロックとして使う.

実験

sLSTM ブロックを a 個, mLSTM を b 個使ったものを xLSTM[a:b] と記述する.

結果

LSTM を数十億のパラメータにスケールアップした結果 「Transformers や State Space Models と同程度に良い」といえる. スケーリング法則によれば, より大きな xLSTM モデルは現在の Transformer ベースの言語モデルの本格的な競合となる可能性がある.