AI评估与回归测试
AI 应用的输出具有概率性,评估和回归测试是保证质量稳定的核心手段。没有评估集,Prompt 和模型改动很容易造成隐性退化。
# 1. 评估闭环
样本集
-> 运行当前版本
-> 评分
-> 分析失败
-> 修改 Prompt / 模型 / 检索
-> 回归测试
-> 发布
# 2. 样本来源
| 来源 | 价值 |
|---|---|
| 人工构造样本 | 覆盖核心业务场景 |
| 历史真实问题 | 贴近用户输入 |
| 失败样本 | 防止同类问题复发 |
| 边界样本 | 测试拒答、权限和异常 |
| 攻击样本 | 测试注入和安全策略 |
# 3. 评分方式
| 方式 | 说明 |
|---|---|
| 规则评分 | 格式、字段、关键词、引用 |
| 人工评分 | 质量高,但成本高 |
| 模型辅助评分 | 快速,但要校准 |
| 工具验证 | SQL、代码、计算类任务可验证 |
| 混合评分 | 多种方式结合 |
高风险任务不能只用模型自评。
# 4. 评估维度
| 维度 | 说明 |
|---|---|
| 正确性 | 答案事实是否正确 |
| 完整性 | 是否覆盖必要信息 |
| 相关性 | 是否回答用户问题 |
| 忠实性 | 是否基于给定资料 |
| 格式 | 是否满足结构要求 |
| 安全 | 是否越权或泄露 |
| 成本 | Token 和调用费用 |
| 延迟 | 响应速度 |
# 5. 回归测试场景
每次以下变更都应跑回归:
- Prompt 模板变更。
- 模型版本变更。
- 生成参数变更。
- Embedding 模型变更。
- 文档切分策略变更。
- Rerank 策略变更。
- 安全规则变更。
# 6. 失败样本管理
失败问题
-> 标注失败类型
-> 归因到链路
-> 加入评估集
-> 修复后回归
失败样本是 AI 应用持续变好的燃料。
# 7. Tips 快问快答
Q:AI 评估可以和单元测试一样确定吗?
A:部分可以,例如 JSON 格式、权限、引用。开放生成任务更适合评分和抽样复核。
Q:模型辅助评分可信吗?
A:可以用于初筛,但要用人工样本校准,并避免评分模型和被评模型偏差一致。
Q:评估集多久更新一次?
A:应持续加入线上失败样本和新业务场景,而不是一次性建设完就不动。
上次更新: 2026/06/25, 17:53:09