Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

    • AI基础概述
    • AI机器学习深度学习与大模型
    • 机器学习三大学习范式
      • 1. 总体对比
      • 2. 监督学习
      • 3. 无监督学习
      • 4. 强化学习
      • 5. 如何选择范式
      • 6. 常见坑
      • 7. Tips 快问快答
    • 训练验证测试与评估
    • 数据集特征标签与泛化
    • 模型推理与部署基础
  • 大模型基础

  • Prompt工程

  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

  • AI安全与治理

  • AI面试与设计题

目录

机器学习三大学习范式

机器学习常按学习方式分为监督学习、无监督学习和强化学习。三者的核心区别是模型从什么反馈中学习。

# 1. 总体对比

范式 数据形态 学习目标 典型任务
监督学习 输入 + 标签 学会从输入预测标签 分类、回归、排序
无监督学习 只有输入 发现数据内部结构 聚类、降维、异常发现
强化学习 状态 + 动作 + 奖励 学会长期收益更高的策略 游戏、控制、策略优化

# 2. 监督学习

监督学习是最常见的机器学习范式。训练数据中包含输入和正确答案,模型通过不断比较预测值和真实标签来调整参数。

样本特征 -> 模型预测 -> 预测结果
                     │
真实标签 ------------┘
        计算误差并更新模型

典型场景:

  • 判断邮件是否垃圾邮件。
  • 预测房价、销量、点击率。
  • 判断用户是否可能流失。
  • 对图片、文本、工单进行分类。

监督学习的关键是标签质量。如果标签错误、口径混乱或样本分布偏差,模型效果会很难稳定。

# 3. 无监督学习

无监督学习没有明确标签,目标是从数据中发现结构。

常见场景:

  • 用户分群。
  • 文档主题聚类。
  • 商品相似度分析。
  • 高维数据降维可视化。
  • 异常行为发现。
大量未标注数据
  -> 模型发现相似性或结构
  -> 聚类 / 降维 / 异常分数

无监督学习的难点在于结果解释。模型能给出分组,但这些分组是否有业务意义,需要结合业务验证。

# 4. 强化学习

强化学习关注智能体在环境中采取动作,并根据奖励信号学习策略。

智能体观察状态
  -> 选择动作
  -> 环境变化
  -> 获得奖励
  -> 更新策略

强化学习适合动作会影响后续状态、并且目标是长期收益的场景。例如游戏 AI、机器人控制、推荐策略优化、资源调度等。

在大模型领域,RLHF(基于人类反馈的强化学习)曾被用于让模型输出更符合人类偏好。不过在应用开发中,更常见的是使用已经对齐好的模型,而不是自己做强化学习训练。

# 5. 如何选择范式

问题 更可能适合
有大量明确标签,要预测分类或数值 监督学习
没有标签,但想发现相似群体 无监督学习
决策会影响未来状态,并且有奖励反馈 强化学习
需要理解和生成自然语言 大模型应用

# 6. 常见坑

  1. 把没有标签的问题硬做监督学习,导致标签成本过高。
  2. 聚类结果没有业务解释,只得到“看起来分了几组”。
  3. 强化学习奖励设计不合理,模型学到投机行为。
  4. 只看训练集效果,不看真实线上分布。

# 7. Tips 快问快答

Q:大模型属于哪种学习范式?

A:大模型预训练通常包含自监督学习思想,后续还可能经过指令微调、偏好对齐和强化学习等阶段。它不是单一范式能完全概括的。

Q:无监督学习是不是不需要人工参与?

A:不完全是。模型训练可能不需要标签,但结果解释、业务命名、策略落地仍然需要人工判断。

Q:强化学习适合普通业务系统吗?

A:多数普通业务不需要直接使用强化学习。除非存在明确的状态、动作、奖励和长期优化目标,否则传统规则、监督学习或大模型工作流通常更简单可靠。

上次更新: 2026/06/25, 17:53:09
AI机器学习深度学习与大模型
训练验证测试与评估

← AI机器学习深度学习与大模型 训练验证测试与评估→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式