Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

  • 大模型基础

  • Prompt工程

  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

    • AI工程化概述
    • 模型网关设计
    • SSE与流式响应
    • 上下文压缩与摘要
    • AI成本与缓存策略
    • 限流熔断与降级
    • 结构化输出解析
    • AI评估与回归测试
      • 1. 评估闭环
      • 2. 样本来源
      • 3. 评分方式
      • 4. 评估维度
      • 5. 回归测试场景
      • 6. 失败样本管理
      • 7. Tips 快问快答
    • 日志指标与链路追踪
  • AI安全与治理

  • AI面试与设计题

目录

AI评估与回归测试

AI 应用的输出具有概率性,评估和回归测试是保证质量稳定的核心手段。没有评估集,Prompt 和模型改动很容易造成隐性退化。

# 1. 评估闭环

样本集
  -> 运行当前版本
  -> 评分
  -> 分析失败
  -> 修改 Prompt / 模型 / 检索
  -> 回归测试
  -> 发布

# 2. 样本来源

来源 价值
人工构造样本 覆盖核心业务场景
历史真实问题 贴近用户输入
失败样本 防止同类问题复发
边界样本 测试拒答、权限和异常
攻击样本 测试注入和安全策略

# 3. 评分方式

方式 说明
规则评分 格式、字段、关键词、引用
人工评分 质量高,但成本高
模型辅助评分 快速,但要校准
工具验证 SQL、代码、计算类任务可验证
混合评分 多种方式结合

高风险任务不能只用模型自评。

# 4. 评估维度

维度 说明
正确性 答案事实是否正确
完整性 是否覆盖必要信息
相关性 是否回答用户问题
忠实性 是否基于给定资料
格式 是否满足结构要求
安全 是否越权或泄露
成本 Token 和调用费用
延迟 响应速度

# 5. 回归测试场景

每次以下变更都应跑回归:

  • Prompt 模板变更。
  • 模型版本变更。
  • 生成参数变更。
  • Embedding 模型变更。
  • 文档切分策略变更。
  • Rerank 策略变更。
  • 安全规则变更。

# 6. 失败样本管理

失败问题
  -> 标注失败类型
  -> 归因到链路
  -> 加入评估集
  -> 修复后回归

失败样本是 AI 应用持续变好的燃料。

# 7. Tips 快问快答

Q:AI 评估可以和单元测试一样确定吗?

A:部分可以,例如 JSON 格式、权限、引用。开放生成任务更适合评分和抽样复核。

Q:模型辅助评分可信吗?

A:可以用于初筛,但要用人工样本校准,并避免评分模型和被评模型偏差一致。

Q:评估集多久更新一次?

A:应持续加入线上失败样本和新业务场景,而不是一次性建设完就不动。

上次更新: 2026/06/25, 17:53:09
结构化输出解析
日志指标与链路追踪

← 结构化输出解析 日志指标与链路追踪→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式