Transformer架构概述

Transformer 是现代大语言模型的核心架构。它用注意力机制处理序列信息，使模型可以在较长上下文中捕捉词与词、句子与句子之间的关系。

# 1. 为什么需要 Transformer

自然语言是序列数据，词语的含义依赖上下文。早期序列模型在处理长距离依赖和并行训练时存在瓶颈。Transformer 的核心改进是用 Attention 直接建模任意位置之间的关系。

输入文本
  -> Token 化
  -> Embedding
  -> 多层 Transformer Block
  -> 输出概率分布
  -> 生成下一个 Token

输入向量
  -> LayerNorm
  -> Self-Attention
  -> 残差连接
  -> LayerNorm
  -> Feed Forward
  -> 残差连接
  -> 输出向量

大模型通常由很多层 Transformer Block 堆叠而成。层数、隐藏维度、注意力头数量和训练数据规模共同影响模型能力。

许多大语言模型采用 Decoder-only 架构。它的训练目标通常是预测下一个 Token，因此非常适合连续生成文本。

对应用开发者来说，不必一开始掌握所有数学细节，但要理解三个事实：

这些事实会直接影响 Prompt 设计、RAG 上下文拼接、成本控制和幻觉治理。

误区	正确认知
Transformer 等于大模型	Transformer 是架构，大模型还依赖数据、训练和对齐
注意力能记住所有信息	上下文窗口有限，注意力也会受干扰
模型真的理解事实	模型学习的是统计关联和表示，事实可靠性需要外部验证

Q：为什么大模型能做很多任务？

A：大规模预训练让模型学习了语言、知识和任务模式，指令微调让它更会按照人的要求输出。

Q：Transformer 为什么适合并行训练？

A：Self-Attention 可以同时计算序列中多个位置之间的关系，比逐步处理序列的模型更适合大规模并行。

Q：应用开发需要读 Transformer 源码吗？

A：不一定。应用开发更需要理解 Token、上下文、生成参数、能力边界和工程治理。

上次更新: 2026/06/25, 17:53:09