Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

  • 大模型基础

  • Prompt工程

    • Prompt工程概述
    • Prompt基础写法
    • 角色任务上下文与约束
    • Zero-shot与Few-shot
    • 任务拆解与分阶段生成
    • 结构化输出与JSON
    • Prompt调试与评估
      • 1. 调试闭环
      • 2. 常见失败类型
      • 3. Prompt 评估维度
      • 4. 样本集设计
      • 5. 调试原则
      • 6. Prompt 版本管理
      • 7. Tips 快问快答
    • Prompt注入基础
  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

  • AI安全与治理

  • AI面试与设计题

目录

Prompt调试与评估

Prompt 调试不是凭感觉反复改句子,而是围绕样本、指标和失败原因做系统迭代。尤其在生产系统中,Prompt 应该像代码一样有版本、有评估、有回归。

# 1. 调试闭环

收集样本
  -> 定义好坏标准
  -> 运行 Prompt
  -> 分析失败样本
  -> 修改一个变量
  -> 回归评估
  -> 发布新版本

# 2. 常见失败类型

失败类型 表现 调整方向
任务理解错 回答方向不对 重写任务目标
上下文不足 模型猜测或编造 补充资料或允许拒答
格式不稳定 输出结构变化 加 Schema 和示例
过度发挥 添加无关内容 增加事实约束
答案太泛 缺少细节和判断 明确读者、场景、深度
安全越界 输出敏感或危险内容 加安全规则和外部校验

# 3. Prompt 评估维度

维度 问题
正确性 事实是否正确
完整性 是否覆盖必要要点
相关性 是否回答了问题
稳定性 多次输出是否一致
格式 是否满足结构化要求
成本 Token 是否过多
安全 是否泄露或越权

# 4. 样本集设计

评估样本应覆盖:

  • 高频正常问题。
  • 边界问题。
  • 资料不足问题。
  • 恶意注入问题。
  • 长上下文问题。
  • 格式严格问题。
  • 业务高风险问题。

不要只用成功样本评估,否则 Prompt 会在真实环境中暴露问题。

# 5. 调试原则

  1. 每次只改一个主要变量。
  2. 保留失败样本和修改记录。
  3. 使用固定样本集做回归。
  4. 关注平均效果,也关注高风险失败。
  5. Prompt 变更要和模型版本、参数变更分开记录。

# 6. Prompt 版本管理

prompt_name
  -> version
  -> template
  -> model
  -> parameters
  -> evaluation_result
  -> release_time

线上系统中,Prompt 不应该散落在代码里难以追踪。至少要能知道一次回答用了哪个版本的 Prompt。

# 7. Tips 快问快答

Q:Prompt 调好了还需要评估吗?

A:需要。模型版本、业务数据和用户输入都会变化,必须持续回归。

Q:怎样判断 Prompt 改动是否有效?

A:用同一批样本和同一套评分标准比较新旧版本,而不是看一两个演示样例。

Q:失败样本怎么处理?

A:分类原因,能通过 Prompt 修复的修 Prompt;需要检索、权限或业务规则解决的,不要硬塞进 Prompt。

上次更新: 2026/06/25, 17:53:09
结构化输出与JSON
Prompt注入基础

← 结构化输出与JSON Prompt注入基础→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式