AI工程化概述

AI 工程化关注 AI 应用从能跑通到能稳定运行的过程。真实生产环境中，模型可能超时、限流、输出格式错误、成本失控、上下文过长、答案不可评估，也可能因为权限和安全问题带来业务风险。

# 1. AI 工程化关注点

请求接入
  -> 参数校验
  -> Prompt 编排
  -> 上下文管理
  -> 模型路由
  -> 限流与熔断
  -> 流式输出
  -> 结果解析
  -> 质量评估
  -> 日志审计
  -> 监控告警

# 2. 可以展开的知识点

方向	重点问题	后续文章建议
模型网关	多模型如何统一接入	模型网关设计
流式输出	如何提升用户等待体验	SSE 与流式响应
上下文管理	多轮对话如何控制长度	上下文压缩与摘要
成本控制	Token 成本如何治理	AI 成本与缓存策略
限流降级	模型不可用时怎么办	限流、熔断与降级
结果解析	JSON 输出不稳定怎么处理	结构化输出解析
评估体系	如何衡量 AI 应用质量	AI 评估与回归测试
可观测性	如何排查 AI 请求问题	日志、指标与链路追踪

# 本章节目录

# 3. 生产问题清单

问题	常见原因	处理思路
响应慢	模型延迟高、上下文过长、串行工具调用	流式输出、裁剪上下文、并行化、缓存
成本高	Token 过多、重复请求、模型过强	Prompt 压缩、结果缓存、模型分级
输出格式错	Prompt 不清晰、模型随机性高	结构化约束、Schema 校验、失败重试
答案不稳定	温度过高、上下文变化、检索波动	降低随机性、固定检索、引入评估
难以排查	缺少日志和 trace	记录 Prompt、模型、Token、耗时和检索结果

# 4. 工程设计原则

把模型调用当成外部不稳定依赖，必须有超时、重试、限流和降级。
对重要输出做结构化校验，不要直接相信模型返回。
记录请求链路，至少包括输入摘要、模型、Token、耗时、错误和输出状态。
建立离线评估集，防止 Prompt、模型或检索改动造成质量回退。
按任务复杂度选择模型，不要所有请求都使用最贵模型。

# 5. Tips 快问快答

Q：AI 应用为什么需要评估集？

A：因为模型输出会随 Prompt、模型版本、检索结果和参数变化而变化。没有评估集，就很难判断改动是变好还是变坏。

Q：模型调用失败时应该怎么降级？

A：可以返回缓存结果、切换备用模型、减少上下文、关闭非核心 AI 功能，或转为人工处理。

Q：是否要记录完整 Prompt？

A：调试上有价值，但要注意隐私和敏感信息。生产中可以做脱敏、摘要记录和访问控制。

上次更新: 2026/06/25, 17:53:09

← AI应用交互设计模型网关设计→