Prompt调试与评估

Prompt 调试不是凭感觉反复改句子，而是围绕样本、指标和失败原因做系统迭代。尤其在生产系统中，Prompt 应该像代码一样有版本、有评估、有回归。

# 1. 调试闭环

收集样本
  -> 定义好坏标准
  -> 运行 Prompt
  -> 分析失败样本
  -> 修改一个变量
  -> 回归评估
  -> 发布新版本

评估样本应覆盖：

不要只用成功样本评估，否则 Prompt 会在真实环境中暴露问题。

prompt_name
  -> version
  -> template
  -> model
  -> parameters
  -> evaluation_result
  -> release_time

线上系统中，Prompt 不应该散落在代码里难以追踪。至少要能知道一次回答用了哪个版本的 Prompt。

Q：Prompt 调好了还需要评估吗？

A：需要。模型版本、业务数据和用户输入都会变化，必须持续回归。

Q：怎样判断 Prompt 改动是否有效？

A：用同一批样本和同一套评分标准比较新旧版本，而不是看一两个演示样例。

Q：失败样本怎么处理？

A：分类原因，能通过 Prompt 修复的修 Prompt；需要检索、权限或业务规则解决的，不要硬塞进 Prompt。

上次更新: 2026/06/25, 17:53:09