Transformer架构概述
Transformer 是现代大语言模型的核心架构。它用注意力机制处理序列信息,使模型可以在较长上下文中捕捉词与词、句子与句子之间的关系。
# 1. 为什么需要 Transformer
自然语言是序列数据,词语的含义依赖上下文。早期序列模型在处理长距离依赖和并行训练时存在瓶颈。Transformer 的核心改进是用 Attention 直接建模任意位置之间的关系。
输入文本
-> Token 化
-> Embedding
-> 多层 Transformer Block
-> 输出概率分布
-> 生成下一个 Token
# 2. 基本组成
| 组件 | 作用 |
|---|---|
| Token Embedding | 把 Token 映射成向量 |
| Position Encoding | 提供位置信息 |
| Self-Attention | 建模上下文中不同 Token 的关系 |
| Feed Forward Network | 对每个位置的表示做非线性变换 |
| LayerNorm | 稳定训练过程 |
| Residual Connection | 缓解深层网络训练困难 |
# 3. Transformer Block
输入向量
-> LayerNorm
-> Self-Attention
-> 残差连接
-> LayerNorm
-> Feed Forward
-> 残差连接
-> 输出向量
大模型通常由很多层 Transformer Block 堆叠而成。层数、隐藏维度、注意力头数量和训练数据规模共同影响模型能力。
# 4. Encoder、Decoder 与 Decoder-only
| 架构 | 特点 | 适合任务 |
|---|---|---|
| Encoder-only | 理解输入,输出表示 | 分类、检索、Embedding |
| Encoder-Decoder | 输入理解 + 输出生成 | 翻译、摘要、文本到文本 |
| Decoder-only | 根据已有上下文生成下一个 Token | 对话、写作、代码生成 |
许多大语言模型采用 Decoder-only 架构。它的训练目标通常是预测下一个 Token,因此非常适合连续生成文本。
# 5. 工程理解
对应用开发者来说,不必一开始掌握所有数学细节,但要理解三个事实:
- 模型是基于上下文生成下一个 Token。
- 上下文越长,计算和成本通常越高。
- 模型输出不是查数据库,而是基于概率生成。
这些事实会直接影响 Prompt 设计、RAG 上下文拼接、成本控制和幻觉治理。
# 6. 常见误区
| 误区 | 正确认知 |
|---|---|
| Transformer 等于大模型 | Transformer 是架构,大模型还依赖数据、训练和对齐 |
| 注意力能记住所有信息 | 上下文窗口有限,注意力也会受干扰 |
| 模型真的理解事实 | 模型学习的是统计关联和表示,事实可靠性需要外部验证 |
# 7. Tips 快问快答
Q:为什么大模型能做很多任务?
A:大规模预训练让模型学习了语言、知识和任务模式,指令微调让它更会按照人的要求输出。
Q:Transformer 为什么适合并行训练?
A:Self-Attention 可以同时计算序列中多个位置之间的关系,比逐步处理序列的模型更适合大规模并行。
Q:应用开发需要读 Transformer 源码吗?
A:不一定。应用开发更需要理解 Token、上下文、生成参数、能力边界和工程治理。
上次更新: 2026/06/25, 17:53:09