Token与上下文窗口

Token 是大模型处理文本的基本单位，上下文窗口是模型一次能处理的 Token 数量上限。理解这两个概念，是控制成本、延迟和输出质量的基础。

# 1. 什么是 Token

Token 可以理解为模型切分文本后的基本片段。它可能是一个字、一个词、一个词的一部分，也可能是标点或空格。

原始文本 -> Tokenizer -> Token 序列 -> 模型处理

不同模型的分词器不同，同一句话在不同模型中可能对应不同 Token 数。

大模型应用中，Token 管理就是成本和质量管理。

上下文窗口表示模型一次请求中能接收和生成的最大 Token 数。

系统指令
+ 用户问题
+ 历史对话
+ 检索文档
+ 工具结果
+ 模型输出
&lt;= 上下文窗口上限

如果输入过长，可能会被截断，导致模型缺失关键信息。

Q：Token 和字符数一样吗？

A：不一样。Token 是模型分词后的单位，不同语言、符号和模型分词器都会影响 Token 数。

Q：上下文窗口越大越好吗？

A：不一定。大窗口能容纳更多信息，但成本更高，也可能引入噪声。关键是放入最相关的信息。

Q：为什么长对话后模型变笨？

A：历史信息太多会挤占窗口并引入噪声，模型可能难以判断当前任务的重点。

上次更新: 2026/06/25, 17:53:09