数据集特征标签与泛化
数据是模型学习的来源。模型效果不好时,不一定是模型不够强,也可能是数据质量、特征设计、标签口径或样本分布出了问题。
# 1. 基础概念
| 概念 | 说明 |
|---|---|
| 数据集 | 用于训练、验证或测试的一组样本 |
| 样本 | 一条具体数据记录 |
| 特征 | 模型用于判断的信息 |
| 标签 | 模型需要学习预测的目标 |
| 分布 | 数据整体的统计特征和出现规律 |
| 泛化 | 模型处理未见过样本的能力 |
# 2. 特征和标签
监督学习可以简化为:
特征 x -> 模型 f(x) -> 预测值 y'
标签 y -> 用来计算预测值和真实值的差距
例如用户流失预测:
| 字段 | 类型 | 作用 |
|---|---|---|
| 最近登录时间 | 特征 | 反映活跃度 |
| 最近购买次数 | 特征 | 反映商业价值 |
| 客服投诉次数 | 特征 | 反映满意度 |
| 未来 30 天是否流失 | 标签 | 训练目标 |
标签不是随便选的,它必须和业务目标一致。标签口径错了,模型会认真学习一个错误目标。
# 3. 数据质量问题
| 问题 | 表现 | 影响 |
|---|---|---|
| 缺失值 | 字段为空或无效 | 模型学习不稳定 |
| 重复数据 | 同一样本出现多次 | 指标虚高或偏向重复样本 |
| 标签错误 | 正负样本标错 | 模型学习错误规律 |
| 样本偏差 | 训练数据不代表真实场景 | 线上效果下降 |
| 数据泄露 | 特征中包含未来信息 | 离线效果虚高 |
# 4. 泛化与过拟合
泛化能力指模型面对新数据仍然有效。过拟合则是模型过度记住训练数据,无法处理真实输入。
模型太简单 -> 欠拟合 -> 训练集和测试集都差
模型合适 -> 泛化好 -> 训练集和测试集都好
模型太复杂 -> 过拟合 -> 训练集好,测试集差
常见缓解方式:
- 增加高质量数据。
- 清洗错误标签和噪声样本。
- 控制模型复杂度。
- 使用正则化、早停、交叉验证。
- 用真实线上数据做回归评估。
# 5. 大模型应用中的数据问题
大模型应用同样离不开数据,只是数据形态发生了变化。
| 场景 | 数据对象 | 关键问题 |
|---|---|---|
| Prompt 工程 | 示例、上下文、约束 | 是否清晰、完整、无冲突 |
| RAG | 文档、Chunk、索引 | 是否准确、及时、可检索 |
| Agent | 工具描述、执行结果、记忆 | 是否可信、权限是否正确 |
| 评估 | 问题集、参考答案、评分规则 | 是否覆盖真实用户输入 |
# 6. 工程建议
- 先定义业务目标,再定义标签和评估指标。
- 数据采集、清洗和标注要可追溯。
- 上线后持续监控数据分布漂移。
- 对 AI 应用保留真实失败样本,持续更新评估集。
- 敏感数据进入模型前要做脱敏和权限过滤。
# 7. Tips 快问快答
Q:数据多一定好吗?
A:不一定。低质量、重复、错误或不相关的数据会污染模型。质量、代表性和口径一致性更重要。
Q:什么是数据泄露?
A:训练特征中包含了真实预测时不可能知道的信息。例如用“订单最终是否退款”预测“下单时是否风险订单”,会导致离线效果虚高。
Q:大模型是不是不需要业务数据?
A:通用能力来自预训练,但企业应用仍然需要业务文档、用户上下文、权限信息和评估数据。
上次更新: 2026/06/25, 17:53:09