机器学习三大学习范式
机器学习常按学习方式分为监督学习、无监督学习和强化学习。三者的核心区别是模型从什么反馈中学习。
# 1. 总体对比
| 范式 | 数据形态 | 学习目标 | 典型任务 |
|---|---|---|---|
| 监督学习 | 输入 + 标签 | 学会从输入预测标签 | 分类、回归、排序 |
| 无监督学习 | 只有输入 | 发现数据内部结构 | 聚类、降维、异常发现 |
| 强化学习 | 状态 + 动作 + 奖励 | 学会长期收益更高的策略 | 游戏、控制、策略优化 |
# 2. 监督学习
监督学习是最常见的机器学习范式。训练数据中包含输入和正确答案,模型通过不断比较预测值和真实标签来调整参数。
样本特征 -> 模型预测 -> 预测结果
│
真实标签 ------------┘
计算误差并更新模型
典型场景:
- 判断邮件是否垃圾邮件。
- 预测房价、销量、点击率。
- 判断用户是否可能流失。
- 对图片、文本、工单进行分类。
监督学习的关键是标签质量。如果标签错误、口径混乱或样本分布偏差,模型效果会很难稳定。
# 3. 无监督学习
无监督学习没有明确标签,目标是从数据中发现结构。
常见场景:
- 用户分群。
- 文档主题聚类。
- 商品相似度分析。
- 高维数据降维可视化。
- 异常行为发现。
大量未标注数据
-> 模型发现相似性或结构
-> 聚类 / 降维 / 异常分数
无监督学习的难点在于结果解释。模型能给出分组,但这些分组是否有业务意义,需要结合业务验证。
# 4. 强化学习
强化学习关注智能体在环境中采取动作,并根据奖励信号学习策略。
智能体观察状态
-> 选择动作
-> 环境变化
-> 获得奖励
-> 更新策略
强化学习适合动作会影响后续状态、并且目标是长期收益的场景。例如游戏 AI、机器人控制、推荐策略优化、资源调度等。
在大模型领域,RLHF(基于人类反馈的强化学习)曾被用于让模型输出更符合人类偏好。不过在应用开发中,更常见的是使用已经对齐好的模型,而不是自己做强化学习训练。
# 5. 如何选择范式
| 问题 | 更可能适合 |
|---|---|
| 有大量明确标签,要预测分类或数值 | 监督学习 |
| 没有标签,但想发现相似群体 | 无监督学习 |
| 决策会影响未来状态,并且有奖励反馈 | 强化学习 |
| 需要理解和生成自然语言 | 大模型应用 |
# 6. 常见坑
- 把没有标签的问题硬做监督学习,导致标签成本过高。
- 聚类结果没有业务解释,只得到“看起来分了几组”。
- 强化学习奖励设计不合理,模型学到投机行为。
- 只看训练集效果,不看真实线上分布。
# 7. Tips 快问快答
Q:大模型属于哪种学习范式?
A:大模型预训练通常包含自监督学习思想,后续还可能经过指令微调、偏好对齐和强化学习等阶段。它不是单一范式能完全概括的。
Q:无监督学习是不是不需要人工参与?
A:不完全是。模型训练可能不需要标签,但结果解释、业务命名、策略落地仍然需要人工判断。
Q:强化学习适合普通业务系统吗?
A:多数普通业务不需要直接使用强化学习。除非存在明确的状态、动作、奖励和长期优化目标,否则传统规则、监督学习或大模型工作流通常更简单可靠。
上次更新: 2026/06/25, 17:53:09