Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

    • AI基础概述
    • AI机器学习深度学习与大模型
    • 机器学习三大学习范式
    • 训练验证测试与评估
    • 数据集特征标签与泛化
      • 1. 基础概念
      • 2. 特征和标签
      • 3. 数据质量问题
      • 4. 泛化与过拟合
      • 5. 大模型应用中的数据问题
      • 6. 工程建议
      • 7. Tips 快问快答
    • 模型推理与部署基础
  • 大模型基础

  • Prompt工程

  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

  • AI安全与治理

  • AI面试与设计题

目录

数据集特征标签与泛化

数据是模型学习的来源。模型效果不好时,不一定是模型不够强,也可能是数据质量、特征设计、标签口径或样本分布出了问题。

# 1. 基础概念

概念 说明
数据集 用于训练、验证或测试的一组样本
样本 一条具体数据记录
特征 模型用于判断的信息
标签 模型需要学习预测的目标
分布 数据整体的统计特征和出现规律
泛化 模型处理未见过样本的能力

# 2. 特征和标签

监督学习可以简化为:

特征 x -> 模型 f(x) -> 预测值 y'
标签 y -> 用来计算预测值和真实值的差距

例如用户流失预测:

字段 类型 作用
最近登录时间 特征 反映活跃度
最近购买次数 特征 反映商业价值
客服投诉次数 特征 反映满意度
未来 30 天是否流失 标签 训练目标

标签不是随便选的,它必须和业务目标一致。标签口径错了,模型会认真学习一个错误目标。

# 3. 数据质量问题

问题 表现 影响
缺失值 字段为空或无效 模型学习不稳定
重复数据 同一样本出现多次 指标虚高或偏向重复样本
标签错误 正负样本标错 模型学习错误规律
样本偏差 训练数据不代表真实场景 线上效果下降
数据泄露 特征中包含未来信息 离线效果虚高

# 4. 泛化与过拟合

泛化能力指模型面对新数据仍然有效。过拟合则是模型过度记住训练数据,无法处理真实输入。

模型太简单 -> 欠拟合 -> 训练集和测试集都差
模型合适   -> 泛化好 -> 训练集和测试集都好
模型太复杂 -> 过拟合 -> 训练集好,测试集差

常见缓解方式:

  • 增加高质量数据。
  • 清洗错误标签和噪声样本。
  • 控制模型复杂度。
  • 使用正则化、早停、交叉验证。
  • 用真实线上数据做回归评估。

# 5. 大模型应用中的数据问题

大模型应用同样离不开数据,只是数据形态发生了变化。

场景 数据对象 关键问题
Prompt 工程 示例、上下文、约束 是否清晰、完整、无冲突
RAG 文档、Chunk、索引 是否准确、及时、可检索
Agent 工具描述、执行结果、记忆 是否可信、权限是否正确
评估 问题集、参考答案、评分规则 是否覆盖真实用户输入

# 6. 工程建议

  1. 先定义业务目标,再定义标签和评估指标。
  2. 数据采集、清洗和标注要可追溯。
  3. 上线后持续监控数据分布漂移。
  4. 对 AI 应用保留真实失败样本,持续更新评估集。
  5. 敏感数据进入模型前要做脱敏和权限过滤。

# 7. Tips 快问快答

Q:数据多一定好吗?

A:不一定。低质量、重复、错误或不相关的数据会污染模型。质量、代表性和口径一致性更重要。

Q:什么是数据泄露?

A:训练特征中包含了真实预测时不可能知道的信息。例如用“订单最终是否退款”预测“下单时是否风险订单”,会导致离线效果虚高。

Q:大模型是不是不需要业务数据?

A:通用能力来自预训练,但企业应用仍然需要业务文档、用户上下文、权限信息和评估数据。

上次更新: 2026/06/25, 17:53:09
训练验证测试与评估
模型推理与部署基础

← 训练验证测试与评估 模型推理与部署基础→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式