AI工程化高频题

AI 工程化题关注生产环境的稳定性、成本、延迟、评估和可观测性。回答时要体现“模型是外部不稳定依赖”的意识。

# 1. 如何降低 AI 应用成本

回答要点：

控制输入和输出 Token。
压缩历史对话和 RAG 上下文。
缓存相同问题、Embedding 和检索结果。
按任务分级选择模型。
设置用户和应用配额。
记录 Token 用量并做成本归因。

# 2. 如何降低延迟

回答要点：

使用流式输出降低首屏等待。
减少上下文长度。
并行执行检索和工具调用。
缓存热点结果。
使用更低延迟模型。
设置超时和降级。

# 3. 模型调用失败怎么办

回答：

超时 / 错误
  -> 有限重试
  -> 切换备用模型
  -> 返回缓存或简化答案
  -> 转人工
  -> 记录告警

同时要避免无限重试放大故障。

# 4. 如何做 AI 应用评估

要点：

建设固定评估集。
覆盖正常、边界、失败和安全样本。
按正确性、完整性、格式、安全、成本和延迟评分。
每次 Prompt、模型、RAG 策略变化都跑回归。
线上收集点踩和转人工样本。

# 5. 如何做日志和观测

需要记录：

request_id。
用户和场景。
模型和 Prompt 版本。
Token 用量。
检索命中文档。
工具调用。
耗时和错误。
安全拦截。
用户反馈。

敏感信息要脱敏。

# 6. 如何保证结构化输出稳定

要点：

给 Schema。
限制字段类型和枚举。
使用低随机性参数。
解析和 Schema 校验。
失败重试或修复。
业务规则和权限校验。

# 7. 容易漏的点

成本统计要按用户、应用、模型归因。
流式输出不等于总耗时降低。
Prompt 也要版本化。
AI 输出要有评估和回归。
敏感日志不能明文长期保存。

上次更新: 2026/06/25, 17:53:09

← Agent系统设计题 AI安全治理高频题→