[2405.04517] xLSTM: Extended Long Short-Term Memory

概要

Long Short-Term Memory (LSTM) の拡張版 xLSTM を提案する. ベンチマークで Transformer に肉薄する結果を出せた.

変更は3つ

LSTM の初期バージョンは 1991 年には提案されていた. 仔細を省いて概略を描くと, 入力列 \(z_t\) を受け取って隠れ状態の列 \(h_t\) を次のような漸化式で求める.

\[c_t = f_t c_{t-1} + i_t z_t\] \[h_t = o_t c_t\]

ここで \(f, i, o\) がゲートと呼称されるもので, それぞれ forget, input, output を表現している.

多くの分野でLSTMは成功したが, 新たに出現した Transformer に比べるとさすがに弱い.

２つ新しいポイントがあって,

入力列 \(x_t\) について

state
- cell state
  - \(c_t = f_t c_{t-1} + i_t z_t\)
- normalizer state
  - \(n_t = f_t n_{t-1} + i_t\)
- hidden state
  - \(h_t = o_t( c_t / n_t )\)
cell input
- \(z_t = \phi(\tilde{z_t})\)
  - \(\tilde{z_t} = w_z^\top x_t + r_z h_{t-1} + b_z\)
gates
- input gate
  - \(i_t = \exp(\tilde{i_t})\)
    - \(\tilde{i_t} = w_i^\top x_t + r_i h_{t-1} + b_i\)
- forget gate
  - \(f_t = \exp(\tilde{f_t})\) または \(f_t = \sigma(\tilde{f_t})\)
    - \(\tilde{f_t} = w_f^\top x_t + r_f h_{t-1} + b_f\)
- output gate
  - \(o_t = \sigma(\tilde{o_t})\)
    - \(\tilde{o_t} = w_o^\top x_t + r_o h_{t-1} + b_o\)

さらに Milakov & Gimelshein, 2018 で提案された stabilizer テクニックがある. ただし exp にしてるのは本論文の新規性.

これで出来た \(i', f'\) で \(i,f\) を置き換えるというもの. exp すると値が大きくなりすぎて数値計算上オーバーフローしうるのでこれを使う.

\(\def\R{\mathbb{R}}\) LSTM のスカラーメモリを \(c \in \R\) から行列 \(C \in \R^{d \times d}\) に拡張する. Transformer でいうところの key/value を使うため.

sLSTM または mLSTM を組み込んだブロックを残渣ブロックとして使う.

sLSTM ブロックを a 個, mLSTM を b 個使ったものを xLSTM[a:b] と記述する.

LSTM を数十億のパラメータにスケールアップした結果「Transformers や State Space Models と同程度に良い」といえる. スケーリング法則によれば, より大きな xLSTM モデルは現在の Transformer ベースの言語モデルの本格的な競合となる可能性がある.