大模型基础概述

大模型通常指基于大规模数据、大规模参数和深度神经网络训练出来的通用模型。大语言模型最典型的能力是理解和生成自然语言，同时可以扩展到代码、图片、音频、视频和工具调用等场景。

# 1. 大模型核心链路

原始数据
  -> 清洗与预处理
  -> Token 化
  -> 预训练
  -> 指令微调
  -> 对齐与安全训练
  -> 推理服务
  -> 应用集成

# 2. 可以展开的知识点

方向	重点问题	后续文章建议
Transformer	为什么 Transformer 成为大模型基础架构	Transformer 架构概述
Attention	模型如何在上下文中关注关键信息	注意力机制 Attention
Token	模型为什么按 Token 处理文本	Token 与上下文窗口
Embedding	文本如何变成向量表示	Embedding 向量表示
预训练	模型如何学习通用语言能力	预训练与自监督学习
微调	如何让模型更适合具体任务	微调、指令微调与对齐
推理参数	temperature、top_p 等参数如何影响输出	大模型生成参数
幻觉	模型为什么会编造看似合理的内容	幻觉成因与缓解

# 本章节目录

# 3. 关键概念速查

概念	说明
Token	模型处理文本的基本单位，可以是字、词或词片段
Context Window	模型一次能处理的上下文长度
Embedding	把文本、图片等输入映射成向量表示
Transformer	以注意力机制为核心的深度学习架构
Pre-training	在大规模语料上学习通用模式
Fine-tuning	在特定数据上继续训练，使模型适配特定任务
Alignment	让模型输出更符合人类偏好、安全要求和任务规范
Inference	使用训练好的模型生成结果

# 4. 模型能力边界

能力	适合场景	风险
语言理解	总结、分类、问答、改写	可能误解上下文
内容生成	文案、代码、方案、邮件	可能生成错误事实
推理规划	任务拆解、步骤建议、方案比较	复杂推理可能不稳定
工具调用	查询数据、调用接口、执行动作	需要严格权限控制
多模态理解	图片、文档、音频、视频分析	受输入质量和模型能力影响

# 5. 学习建议

先理解 Token、上下文窗口和生成参数，这些概念会直接影响日常使用和开发。
学 Transformer 时重点理解整体结构和 Attention 思想，不必一开始推公式。
学微调和 RAG 时要分清目标：微调偏行为塑造，RAG 偏知识接入。
评估模型时不要只看榜单，要结合业务任务、成本、延迟、稳定性和合规要求。

# 6. Tips 快问快答

Q：大模型为什么会产生幻觉？

A：大模型本质上是在根据上下文预测高概率输出，它不天然等同于事实数据库。当上下文不足或任务要求超出模型知识边界时，就可能生成看似合理但不准确的内容。

Q：上下文窗口越大越好吗？

A：不一定。更大窗口能容纳更多信息，但也会带来成本、延迟和注意力分散问题。关键是把最相关的信息放进上下文。

Q：开源模型和闭源模型怎么选？

A：闭源模型通常能力强、接入快；开源模型更适合私有化、可控成本和深度定制。选型要结合数据安全、性能、预算和团队能力。

上次更新: 2026/06/25, 17:53:09

← 模型推理与部署基础 Transformer架构概述→