注意力机制Attention

Attention 是 Transformer 的核心机制。它让模型在处理某个 Token 时，可以动态关注上下文中更相关的位置。

# 1. 直观理解

人在理解一句话时，不会平均关注每个词，而是会根据当前语义关注关键信息。

例如：

小明把书放进书包，因为它太重了。

理解“它”时，需要关注前面的“书”，而不是“书包”。Attention 的目标就是让模型学会这种上下文关联。

Attention 常用 Query、Key、Value 来解释：

Query 与所有 Key 计算相似度
  -> 得到注意力权重
  -> 按权重汇总 Value
  -> 得到新的上下文表示

Self-Attention 表示序列内部自己和自己做注意力计算。每个 Token 都可以从上下文中的其他 Token 获取信息。

Token1 ─┬─> Token1
Token2 ─┼─> Token2
Token3 ─┼─> Token3
Token4 ─┴─> Token4

每个位置都根据上下文重新计算表示

在语言模型生成中，通常会使用因果掩码，避免模型在预测当前 Token 时看到未来 Token。

多头注意力是把注意力分成多个头并行计算。不同头可以学习不同关系。

多头机制提升了模型同时捕捉多种关系的能力。

Q：Attention 是不是等于人类注意力？

A：不是。它是数学上的权重分配机制，只是直观上类似“关注重点”。

Q：为什么上下文越长不一定越好？

A：上下文越长，噪声越多，模型可能更难关注真正关键的信息，同时成本和延迟也会上升。

Q：RAG 为什么需要重排？

A：重排可以把更相关的内容放到上下文前面，减少不相关内容干扰模型注意力。

上次更新: 2026/06/25, 17:53:09