Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

  • 大模型基础

  • Prompt工程

  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

    • AI工程化概述
    • 模型网关设计
    • SSE与流式响应
    • 上下文压缩与摘要
    • AI成本与缓存策略
      • 1. 成本来源
      • 2. 成本治理链路
      • 3. 缓存类型
      • 4. 模型分级
      • 5. Token 优化
      • 6. 预算和配额
      • 7. 常见坑
      • 8. Tips 快问快答
    • 限流熔断与降级
    • 结构化输出解析
    • AI评估与回归测试
    • 日志指标与链路追踪
  • AI安全与治理

  • AI面试与设计题

目录

AI成本与缓存策略

AI 应用成本主要来自模型调用、Token 消耗、向量化、检索、重排和基础设施。成本治理必须从设计阶段开始,而不是账单失控后再补。

# 1. 成本来源

成本 示例
输入 Token Prompt、历史、文档上下文
输出 Token 模型生成内容
Embedding 文档入库和问题向量化
Rerank 重排候选文档
工具调用 搜索、数据库、外部 API
私有部署 GPU、存储、运维

# 2. 成本治理链路

请求进入
  -> 用户配额
  -> Token 预算
  -> 模型路由
  -> 缓存命中
  -> 调用模型
  -> 记录用量
  -> 账单归因

# 3. 缓存类型

缓存 说明
完整响应缓存 相同问题直接返回答案
检索结果缓存 缓存问题对应的候选 Chunk
Embedding 缓存 避免重复向量化
Prompt 片段缓存 复用固定系统 Prompt
工具结果缓存 缓存稳定的外部查询结果

缓存要考虑权限、版本和时效,不能把 A 用户结果返回给 B 用户。

# 4. 模型分级

简单分类 -> 小模型
普通问答 -> 中等模型
复杂推理 -> 强模型
失败重试 -> 升级模型
敏感数据 -> 私有模型

不要所有请求都走最强模型。

# 5. Token 优化

  1. 压缩系统 Prompt。
  2. 裁剪历史对话。
  3. RAG 只放最相关资料。
  4. 工具结果结构化。
  5. 限制最大输出长度。
  6. 避免重复提交相同上下文。

# 6. 预算和配额

建议按维度统计:

  • 用户。
  • 应用。
  • 部门。
  • 模型。
  • 场景。
  • 时间窗口。

可设置每日、每月、单次请求和并发限制。

# 7. 常见坑

问题 后果
不记录 Token 无法定位成本来源
历史无限追加 成本持续上升
缓存不带权限 数据泄露
所有任务用强模型 成本浪费
输出无限制 费用和延迟不可控

# 8. Tips 快问快答

Q:缓存 AI 答案安全吗?

A:可以缓存,但必须带上用户权限、文档版本、Prompt 版本和模型版本等 key。

Q:降低成本会不会降低质量?

A:可能会。应按场景分级,对低风险任务降成本,对高价值任务保质量。

Q:为什么 RAG 也会很贵?

A:RAG 可能包含 Embedding、向量检索、重排和长上下文生成,链路长了成本自然会上升。

上次更新: 2026/06/25, 17:53:09
上下文压缩与摘要
限流熔断与降级

← 上下文压缩与摘要 限流熔断与降级→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式