数据集特征标签与泛化

数据是模型学习的来源。模型效果不好时，不一定是模型不够强，也可能是数据质量、特征设计、标签口径或样本分布出了问题。

# 1. 基础概念

监督学习可以简化为：

特征 x -> 模型 f(x) -> 预测值 y'
标签 y -> 用来计算预测值和真实值的差距

例如用户流失预测：

标签不是随便选的，它必须和业务目标一致。标签口径错了，模型会认真学习一个错误目标。

泛化能力指模型面对新数据仍然有效。过拟合则是模型过度记住训练数据，无法处理真实输入。

模型太简单 -> 欠拟合 -> 训练集和测试集都差
模型合适   -> 泛化好 -> 训练集和测试集都好
模型太复杂 -> 过拟合 -> 训练集好，测试集差

常见缓解方式：

大模型应用同样离不开数据，只是数据形态发生了变化。

Q：数据多一定好吗？

A：不一定。低质量、重复、错误或不相关的数据会污染模型。质量、代表性和口径一致性更重要。

Q：什么是数据泄露？

A：训练特征中包含了真实预测时不可能知道的信息。例如用“订单最终是否退款”预测“下单时是否风险订单”，会导致离线效果虚高。

Q：大模型是不是不需要业务数据？

A：通用能力来自预训练，但企业应用仍然需要业务文档、用户上下文、权限信息和评估数据。

上次更新: 2026/06/25, 17:53:09