AI成本与缓存策略
AI 应用成本主要来自模型调用、Token 消耗、向量化、检索、重排和基础设施。成本治理必须从设计阶段开始,而不是账单失控后再补。
# 1. 成本来源
| 成本 | 示例 |
|---|---|
| 输入 Token | Prompt、历史、文档上下文 |
| 输出 Token | 模型生成内容 |
| Embedding | 文档入库和问题向量化 |
| Rerank | 重排候选文档 |
| 工具调用 | 搜索、数据库、外部 API |
| 私有部署 | GPU、存储、运维 |
# 2. 成本治理链路
请求进入
-> 用户配额
-> Token 预算
-> 模型路由
-> 缓存命中
-> 调用模型
-> 记录用量
-> 账单归因
# 3. 缓存类型
| 缓存 | 说明 |
|---|---|
| 完整响应缓存 | 相同问题直接返回答案 |
| 检索结果缓存 | 缓存问题对应的候选 Chunk |
| Embedding 缓存 | 避免重复向量化 |
| Prompt 片段缓存 | 复用固定系统 Prompt |
| 工具结果缓存 | 缓存稳定的外部查询结果 |
缓存要考虑权限、版本和时效,不能把 A 用户结果返回给 B 用户。
# 4. 模型分级
简单分类 -> 小模型
普通问答 -> 中等模型
复杂推理 -> 强模型
失败重试 -> 升级模型
敏感数据 -> 私有模型
不要所有请求都走最强模型。
# 5. Token 优化
- 压缩系统 Prompt。
- 裁剪历史对话。
- RAG 只放最相关资料。
- 工具结果结构化。
- 限制最大输出长度。
- 避免重复提交相同上下文。
# 6. 预算和配额
建议按维度统计:
- 用户。
- 应用。
- 部门。
- 模型。
- 场景。
- 时间窗口。
可设置每日、每月、单次请求和并发限制。
# 7. 常见坑
| 问题 | 后果 |
|---|---|
| 不记录 Token | 无法定位成本来源 |
| 历史无限追加 | 成本持续上升 |
| 缓存不带权限 | 数据泄露 |
| 所有任务用强模型 | 成本浪费 |
| 输出无限制 | 费用和延迟不可控 |
# 8. Tips 快问快答
Q:缓存 AI 答案安全吗?
A:可以缓存,但必须带上用户权限、文档版本、Prompt 版本和模型版本等 key。
Q:降低成本会不会降低质量?
A:可能会。应按场景分级,对低风险任务降成本,对高价值任务保质量。
Q:为什么 RAG 也会很贵?
A:RAG 可能包含 Embedding、向量检索、重排和长上下文生成,链路长了成本自然会上升。
上次更新: 2026/06/25, 17:53:09