[2310.11453] BitNet: Scaling 1-bit Transformers for Large Language Models

深層学習

概要

計算効率化の為に精度を落とす. この論文では BitNet というアーキテクチャを提案する. BitNet は Transformer の中の nn.Linear 部分を BitLinear に全て置き換える. この中では重みを全て 1bit にする.

精度と効率のトレードオフになってる.

BitLinear