模型原理

Transformer 架构的原理

从 self-attention、token 信息混合与可扩展性三个角度,解释 Transformer 为什么成为现代语言模型的基础架构。

2026年4月22日7 分钟TransformerAttentionLLM 基础

Transformer 的关键意义,在于它用并行的信息交互机制替代了递归式顺序处理。这一变化直接影响了训练效率、上下文建模方式,以及现代语言模型后续的规模化能力。

为什么 self-attention 改写了基础范式

Self-attention 让每个 token 都能直接与当前序列中的其他 token 建立关系,并根据权重汇总上下文信息。相比顺序传递,它更适合表达长距离依赖,也更适合并行计算。

  • query、key、value 共同决定 token 间的相关性计算
  • multi-head attention 让多种关系模式可以并行学习
  • 前馈网络负责把上下文化后的表示进一步变换
  • 残差连接与归一化使深层堆叠训练更加稳定

当这些模块与大规模预训练结合后,Transformer 就不只是一个网络结构,而成为语言理解、生成与迁移能力的统一底座。