机器学习三大学习范式

机器学习常按学习方式分为监督学习、无监督学习和强化学习。三者的核心区别是模型从什么反馈中学习。

# 1. 总体对比

监督学习是最常见的机器学习范式。训练数据中包含输入和正确答案，模型通过不断比较预测值和真实标签来调整参数。

样本特征 -> 模型预测 -> 预测结果
                     │
真实标签 ------------┘
        计算误差并更新模型

典型场景：

监督学习的关键是标签质量。如果标签错误、口径混乱或样本分布偏差，模型效果会很难稳定。

无监督学习没有明确标签，目标是从数据中发现结构。

常见场景：

大量未标注数据
  -> 模型发现相似性或结构
  -> 聚类 / 降维 / 异常分数

无监督学习的难点在于结果解释。模型能给出分组，但这些分组是否有业务意义，需要结合业务验证。

强化学习关注智能体在环境中采取动作，并根据奖励信号学习策略。

智能体观察状态
  -> 选择动作
  -> 环境变化
  -> 获得奖励
  -> 更新策略

强化学习适合动作会影响后续状态、并且目标是长期收益的场景。例如游戏 AI、机器人控制、推荐策略优化、资源调度等。

在大模型领域，RLHF（基于人类反馈的强化学习）曾被用于让模型输出更符合人类偏好。不过在应用开发中，更常见的是使用已经对齐好的模型，而不是自己做强化学习训练。

Q：大模型属于哪种学习范式？

A：大模型预训练通常包含自监督学习思想，后续还可能经过指令微调、偏好对齐和强化学习等阶段。它不是单一范式能完全概括的。

Q：无监督学习是不是不需要人工参与？

A：不完全是。模型训练可能不需要标签，但结果解释、业务命名、策略落地仍然需要人工判断。

Q：强化学习适合普通业务系统吗？

A：多数普通业务不需要直接使用强化学习。除非存在明确的状态、动作、奖励和长期优化目标，否则传统规则、监督学习或大模型工作流通常更简单可靠。

上次更新: 2026/06/25, 17:53:09