AI评估与回归测试

AI 应用的输出具有概率性，评估和回归测试是保证质量稳定的核心手段。没有评估集，Prompt 和模型改动很容易造成隐性退化。

# 1. 评估闭环

样本集
  -> 运行当前版本
  -> 评分
  -> 分析失败
  -> 修改 Prompt / 模型 / 检索
  -> 回归测试
  -> 发布

高风险任务不能只用模型自评。

每次以下变更都应跑回归：

失败问题
  -> 标注失败类型
  -> 归因到链路
  -> 加入评估集
  -> 修复后回归

失败样本是 AI 应用持续变好的燃料。

Q：AI 评估可以和单元测试一样确定吗？

A：部分可以，例如 JSON 格式、权限、引用。开放生成任务更适合评分和抽样复核。

Q：模型辅助评分可信吗？

A：可以用于初筛，但要用人工样本校准，并避免评分模型和被评模型偏差一致。

Q：评估集多久更新一次？

A：应持续加入线上失败样本和新业务场景，而不是一次性建设完就不动。

上次更新: 2026/06/25, 17:53:09