AI成本与缓存策略

AI 应用成本主要来自模型调用、Token 消耗、向量化、检索、重排和基础设施。成本治理必须从设计阶段开始，而不是账单失控后再补。

# 1. 成本来源

请求进入
  -> 用户配额
  -> Token 预算
  -> 模型路由
  -> 缓存命中
  -> 调用模型
  -> 记录用量
  -> 账单归因

缓存要考虑权限、版本和时效，不能把 A 用户结果返回给 B 用户。

简单分类 -> 小模型
普通问答 -> 中等模型
复杂推理 -> 强模型
失败重试 -> 升级模型
敏感数据 -> 私有模型

不要所有请求都走最强模型。

建议按维度统计：

可设置每日、每月、单次请求和并发限制。

Q：缓存 AI 答案安全吗？

A：可以缓存，但必须带上用户权限、文档版本、Prompt 版本和模型版本等 key。

Q：降低成本会不会降低质量？

A：可能会。应按场景分级，对低风险任务降成本，对高价值任务保质量。

Q：为什么 RAG 也会很贵？

A：RAG 可能包含 Embedding、向量检索、重排和长上下文生成，链路长了成本自然会上升。

上次更新: 2026/06/25, 17:53:09