AI工程化高频题
AI 工程化题关注生产环境的稳定性、成本、延迟、评估和可观测性。回答时要体现“模型是外部不稳定依赖”的意识。
# 1. 如何降低 AI 应用成本
回答要点:
- 控制输入和输出 Token。
- 压缩历史对话和 RAG 上下文。
- 缓存相同问题、Embedding 和检索结果。
- 按任务分级选择模型。
- 设置用户和应用配额。
- 记录 Token 用量并做成本归因。
# 2. 如何降低延迟
回答要点:
- 使用流式输出降低首屏等待。
- 减少上下文长度。
- 并行执行检索和工具调用。
- 缓存热点结果。
- 使用更低延迟模型。
- 设置超时和降级。
# 3. 模型调用失败怎么办
回答:
超时 / 错误
-> 有限重试
-> 切换备用模型
-> 返回缓存或简化答案
-> 转人工
-> 记录告警
同时要避免无限重试放大故障。
# 4. 如何做 AI 应用评估
要点:
- 建设固定评估集。
- 覆盖正常、边界、失败和安全样本。
- 按正确性、完整性、格式、安全、成本和延迟评分。
- 每次 Prompt、模型、RAG 策略变化都跑回归。
- 线上收集点踩和转人工样本。
# 5. 如何做日志和观测
需要记录:
- request_id。
- 用户和场景。
- 模型和 Prompt 版本。
- Token 用量。
- 检索命中文档。
- 工具调用。
- 耗时和错误。
- 安全拦截。
- 用户反馈。
敏感信息要脱敏。
# 6. 如何保证结构化输出稳定
要点:
- 给 Schema。
- 限制字段类型和枚举。
- 使用低随机性参数。
- 解析和 Schema 校验。
- 失败重试或修复。
- 业务规则和权限校验。
# 7. 容易漏的点
- 成本统计要按用户、应用、模型归因。
- 流式输出不等于总耗时降低。
- Prompt 也要版本化。
- AI 输出要有评估和回归。
- 敏感日志不能明文长期保存。
上次更新: 2026/06/25, 17:53:09