Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

  • 大模型基础

    • 大模型基础概述
    • Transformer架构概述
    • 注意力机制Attention
    • Token与上下文窗口
    • Embedding向量表示
    • 预训练指令微调与对齐
      • 1. 训练阶段总览
      • 2. 预训练
      • 3. 指令微调
      • 4. 对齐
      • 5. 微调和 RAG 的区别
      • 6. 工程选型建议
      • 7. Tips 快问快答
    • 生成参数与幻觉治理
    • 多模态大模型基础
  • Prompt工程

  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

  • AI安全与治理

  • AI面试与设计题

目录

预训练指令微调与对齐

大模型的能力通常来自多个训练阶段:预训练学习通用语言和知识,指令微调让模型理解人类任务,对齐让模型输出更符合偏好和安全要求。

# 1. 训练阶段总览

大规模语料
  -> 预训练
  -> 基础模型
  -> 指令微调
  -> 指令模型
  -> 偏好对齐 / 安全训练
  -> 可用于对话和应用的模型

# 2. 预训练

预训练通常使用海量文本、代码和多模态数据,让模型学习通用模式。

常见目标是预测下一个 Token:

输入:今天天气很
目标:好

预训练带来的能力:

  • 语言结构和语义理解。
  • 常识和世界知识。
  • 代码、数学、推理的基础模式。
  • 多任务迁移能力。

但基础模型不一定会按照人的指令回答,它可能只是续写文本。

# 3. 指令微调

指令微调用“指令 -> 回答”的数据训练模型,让模型更会遵循任务要求。

指令:总结下面这段话
输入:...
理想回答:...

指令微调改善的是交互能力:

  • 听懂任务。
  • 按格式输出。
  • 遵守约束。
  • 更像助手而不是续写器。

# 4. 对齐

对齐关注模型输出是否符合人类偏好、安全规范和产品边界。

对齐目标 示例
有帮助 回答具体、可执行
诚实 不知道时说明不确定
无害 避免危险、违法或歧视内容
可控 遵守系统指令和安全策略

对齐可以通过偏好数据、人工反馈、安全数据和规则策略实现。

# 5. 微调和 RAG 的区别

对比项 微调 RAG
目标 改变模型行为或任务风格 接入外部知识
数据 训练样本 文档和知识库
更新成本 较高,需要训练和评估 较低,更新索引即可
适合 固定格式、领域风格、特定任务 频繁变化的私有知识
风险 过拟合、遗忘、训练成本 检索不准、上下文污染

# 6. 工程选型建议

  1. 私有知识问答优先考虑 RAG。
  2. 输出格式和任务行为不稳定时,先优化 Prompt 和示例。
  3. 大量同类任务且 Prompt 无法稳定解决时,再考虑微调。
  4. 微调后必须建立回归评估,防止能力退化。

# 7. Tips 快问快答

Q:微调能让模型记住企业知识吗?

A:可以让模型学习一部分模式,但不适合频繁更新和需要可追溯的知识库。企业知识问答通常优先 RAG。

Q:对齐是不是只靠模型训练?

A:不是。产品层面的安全策略、权限控制、内容审核和审计同样重要。

Q:指令微调和 Prompt 工程有什么关系?

A:指令微调让模型更会听指令,Prompt 工程是在使用阶段把任务表达清楚。两者互补。

上次更新: 2026/06/25, 17:53:09
Embedding向量表示
生成参数与幻觉治理

← Embedding向量表示 生成参数与幻觉治理→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式