训练验证测试与评估

训练、验证、测试和评估是模型开发的基本闭环。没有可靠评估，就无法判断模型是否真的变好，也无法解释上线后的效果波动。

# 1. 数据集划分

原始数据集
├─ 训练集：用于学习模型参数
├─ 验证集：用于调参和选择模型
└─ 测试集：用于最终评估泛化效果

模型在训练集上效果好，可能只是记住了训练样本。真正重要的是模型面对新数据时是否仍然有效。

训练集效果好 + 测试集效果好 -> 泛化能力较好
训练集效果好 + 测试集效果差 -> 可能过拟合
训练集效果差 + 测试集效果差 -> 可能欠拟合或数据质量差

收集样本
  -> 标注期望答案或评分规则
  -> 批量运行模型
  -> 自动或人工评分
  -> 分析失败样本
  -> 调整 Prompt / 检索 / 模型 / 规则
  -> 回归测试

对大模型应用，评估集比一次性人工体验更重要。没有固定评估集，就很难判断模型、Prompt 或检索策略改动是否真的提升了质量。

Q：准确率很高是不是模型就很好？

A：不一定。类别极不均衡时，模型全部预测多数类也可能有高准确率。此时要看 Precision、Recall、F1 等指标。

Q：大模型输出怎么自动评估？

A：可以结合规则校验、参考答案匹配、人工评分和模型辅助评分。关键业务场景不能只依赖模型自评。

Q：评估集需要多大？

A：先覆盖核心场景和高风险场景，再逐步加入真实失败样本。质量和代表性比单纯数量更重要。

上次更新: 2026/06/25, 17:53:09