AI工程化概述
AI 工程化关注 AI 应用从能跑通到能稳定运行的过程。真实生产环境中,模型可能超时、限流、输出格式错误、成本失控、上下文过长、答案不可评估,也可能因为权限和安全问题带来业务风险。
# 1. AI 工程化关注点
请求接入
-> 参数校验
-> Prompt 编排
-> 上下文管理
-> 模型路由
-> 限流与熔断
-> 流式输出
-> 结果解析
-> 质量评估
-> 日志审计
-> 监控告警
# 2. 可以展开的知识点
| 方向 | 重点问题 | 后续文章建议 |
|---|---|---|
| 模型网关 | 多模型如何统一接入 | 模型网关设计 |
| 流式输出 | 如何提升用户等待体验 | SSE 与流式响应 |
| 上下文管理 | 多轮对话如何控制长度 | 上下文压缩与摘要 |
| 成本控制 | Token 成本如何治理 | AI 成本与缓存策略 |
| 限流降级 | 模型不可用时怎么办 | 限流、熔断与降级 |
| 结果解析 | JSON 输出不稳定怎么处理 | 结构化输出解析 |
| 评估体系 | 如何衡量 AI 应用质量 | AI 评估与回归测试 |
| 可观测性 | 如何排查 AI 请求问题 | 日志、指标与链路追踪 |
# 本章节目录
# 3. 生产问题清单
| 问题 | 常见原因 | 处理思路 |
|---|---|---|
| 响应慢 | 模型延迟高、上下文过长、串行工具调用 | 流式输出、裁剪上下文、并行化、缓存 |
| 成本高 | Token 过多、重复请求、模型过强 | Prompt 压缩、结果缓存、模型分级 |
| 输出格式错 | Prompt 不清晰、模型随机性高 | 结构化约束、Schema 校验、失败重试 |
| 答案不稳定 | 温度过高、上下文变化、检索波动 | 降低随机性、固定检索、引入评估 |
| 难以排查 | 缺少日志和 trace | 记录 Prompt、模型、Token、耗时和检索结果 |
# 4. 工程设计原则
- 把模型调用当成外部不稳定依赖,必须有超时、重试、限流和降级。
- 对重要输出做结构化校验,不要直接相信模型返回。
- 记录请求链路,至少包括输入摘要、模型、Token、耗时、错误和输出状态。
- 建立离线评估集,防止 Prompt、模型或检索改动造成质量回退。
- 按任务复杂度选择模型,不要所有请求都使用最贵模型。
# 5. Tips 快问快答
Q:AI 应用为什么需要评估集?
A:因为模型输出会随 Prompt、模型版本、检索结果和参数变化而变化。没有评估集,就很难判断改动是变好还是变坏。
Q:模型调用失败时应该怎么降级?
A:可以返回缓存结果、切换备用模型、减少上下文、关闭非核心 AI 功能,或转为人工处理。
Q:是否要记录完整 Prompt?
A:调试上有价值,但要注意隐私和敏感信息。生产中可以做脱敏、摘要记录和访问控制。
上次更新: 2026/06/25, 17:53:09