Prompt调试与评估
Prompt 调试不是凭感觉反复改句子,而是围绕样本、指标和失败原因做系统迭代。尤其在生产系统中,Prompt 应该像代码一样有版本、有评估、有回归。
# 1. 调试闭环
收集样本
-> 定义好坏标准
-> 运行 Prompt
-> 分析失败样本
-> 修改一个变量
-> 回归评估
-> 发布新版本
# 2. 常见失败类型
| 失败类型 | 表现 | 调整方向 |
|---|---|---|
| 任务理解错 | 回答方向不对 | 重写任务目标 |
| 上下文不足 | 模型猜测或编造 | 补充资料或允许拒答 |
| 格式不稳定 | 输出结构变化 | 加 Schema 和示例 |
| 过度发挥 | 添加无关内容 | 增加事实约束 |
| 答案太泛 | 缺少细节和判断 | 明确读者、场景、深度 |
| 安全越界 | 输出敏感或危险内容 | 加安全规则和外部校验 |
# 3. Prompt 评估维度
| 维度 | 问题 |
|---|---|
| 正确性 | 事实是否正确 |
| 完整性 | 是否覆盖必要要点 |
| 相关性 | 是否回答了问题 |
| 稳定性 | 多次输出是否一致 |
| 格式 | 是否满足结构化要求 |
| 成本 | Token 是否过多 |
| 安全 | 是否泄露或越权 |
# 4. 样本集设计
评估样本应覆盖:
- 高频正常问题。
- 边界问题。
- 资料不足问题。
- 恶意注入问题。
- 长上下文问题。
- 格式严格问题。
- 业务高风险问题。
不要只用成功样本评估,否则 Prompt 会在真实环境中暴露问题。
# 5. 调试原则
- 每次只改一个主要变量。
- 保留失败样本和修改记录。
- 使用固定样本集做回归。
- 关注平均效果,也关注高风险失败。
- Prompt 变更要和模型版本、参数变更分开记录。
# 6. Prompt 版本管理
prompt_name
-> version
-> template
-> model
-> parameters
-> evaluation_result
-> release_time
线上系统中,Prompt 不应该散落在代码里难以追踪。至少要能知道一次回答用了哪个版本的 Prompt。
# 7. Tips 快问快答
Q:Prompt 调好了还需要评估吗?
A:需要。模型版本、业务数据和用户输入都会变化,必须持续回归。
Q:怎样判断 Prompt 改动是否有效?
A:用同一批样本和同一套评分标准比较新旧版本,而不是看一两个演示样例。
Q:失败样本怎么处理?
A:分类原因,能通过 Prompt 修复的修 Prompt;需要检索、权限或业务规则解决的,不要硬塞进 Prompt。
上次更新: 2026/06/25, 17:53:09