Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

  • 大模型基础

  • Prompt工程

  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

    • AI工程化概述
      • 1. AI 工程化关注点
      • 2. 可以展开的知识点
      • 本章节目录
      • 3. 生产问题清单
      • 4. 工程设计原则
      • 5. Tips 快问快答
    • 模型网关设计
    • SSE与流式响应
    • 上下文压缩与摘要
    • AI成本与缓存策略
    • 限流熔断与降级
    • 结构化输出解析
    • AI评估与回归测试
    • 日志指标与链路追踪
  • AI安全与治理

  • AI面试与设计题

目录

AI工程化概述

AI 工程化关注 AI 应用从能跑通到能稳定运行的过程。真实生产环境中,模型可能超时、限流、输出格式错误、成本失控、上下文过长、答案不可评估,也可能因为权限和安全问题带来业务风险。

# 1. AI 工程化关注点

请求接入
  -> 参数校验
  -> Prompt 编排
  -> 上下文管理
  -> 模型路由
  -> 限流与熔断
  -> 流式输出
  -> 结果解析
  -> 质量评估
  -> 日志审计
  -> 监控告警

# 2. 可以展开的知识点

方向 重点问题 后续文章建议
模型网关 多模型如何统一接入 模型网关设计
流式输出 如何提升用户等待体验 SSE 与流式响应
上下文管理 多轮对话如何控制长度 上下文压缩与摘要
成本控制 Token 成本如何治理 AI 成本与缓存策略
限流降级 模型不可用时怎么办 限流、熔断与降级
结果解析 JSON 输出不稳定怎么处理 结构化输出解析
评估体系 如何衡量 AI 应用质量 AI 评估与回归测试
可观测性 如何排查 AI 请求问题 日志、指标与链路追踪

# 本章节目录

  • 模型网关设计
  • SSE与流式响应
  • 上下文压缩与摘要
  • AI成本与缓存策略
  • 限流熔断与降级
  • 结构化输出解析
  • AI评估与回归测试
  • 日志指标与链路追踪

# 3. 生产问题清单

问题 常见原因 处理思路
响应慢 模型延迟高、上下文过长、串行工具调用 流式输出、裁剪上下文、并行化、缓存
成本高 Token 过多、重复请求、模型过强 Prompt 压缩、结果缓存、模型分级
输出格式错 Prompt 不清晰、模型随机性高 结构化约束、Schema 校验、失败重试
答案不稳定 温度过高、上下文变化、检索波动 降低随机性、固定检索、引入评估
难以排查 缺少日志和 trace 记录 Prompt、模型、Token、耗时和检索结果

# 4. 工程设计原则

  1. 把模型调用当成外部不稳定依赖,必须有超时、重试、限流和降级。
  2. 对重要输出做结构化校验,不要直接相信模型返回。
  3. 记录请求链路,至少包括输入摘要、模型、Token、耗时、错误和输出状态。
  4. 建立离线评估集,防止 Prompt、模型或检索改动造成质量回退。
  5. 按任务复杂度选择模型,不要所有请求都使用最贵模型。

# 5. Tips 快问快答

Q:AI 应用为什么需要评估集?

A:因为模型输出会随 Prompt、模型版本、检索结果和参数变化而变化。没有评估集,就很难判断改动是变好还是变坏。

Q:模型调用失败时应该怎么降级?

A:可以返回缓存结果、切换备用模型、减少上下文、关闭非核心 AI 功能,或转为人工处理。

Q:是否要记录完整 Prompt?

A:调试上有价值,但要注意隐私和敏感信息。生产中可以做脱敏、摘要记录和访问控制。

上次更新: 2026/06/25, 17:53:09
AI应用交互设计
模型网关设计

← AI应用交互设计 模型网关设计→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式