Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

  • 大模型基础

    • 大模型基础概述
    • Transformer架构概述
      • 1. 为什么需要 Transformer
      • 2. 基本组成
      • 3. Transformer Block
      • 4. Encoder、Decoder 与 Decoder-only
      • 5. 工程理解
      • 6. 常见误区
      • 7. Tips 快问快答
    • 注意力机制Attention
    • Token与上下文窗口
    • Embedding向量表示
    • 预训练指令微调与对齐
    • 生成参数与幻觉治理
    • 多模态大模型基础
  • Prompt工程

  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

  • AI安全与治理

  • AI面试与设计题

目录

Transformer架构概述

Transformer 是现代大语言模型的核心架构。它用注意力机制处理序列信息,使模型可以在较长上下文中捕捉词与词、句子与句子之间的关系。

# 1. 为什么需要 Transformer

自然语言是序列数据,词语的含义依赖上下文。早期序列模型在处理长距离依赖和并行训练时存在瓶颈。Transformer 的核心改进是用 Attention 直接建模任意位置之间的关系。

输入文本
  -> Token 化
  -> Embedding
  -> 多层 Transformer Block
  -> 输出概率分布
  -> 生成下一个 Token

# 2. 基本组成

组件 作用
Token Embedding 把 Token 映射成向量
Position Encoding 提供位置信息
Self-Attention 建模上下文中不同 Token 的关系
Feed Forward Network 对每个位置的表示做非线性变换
LayerNorm 稳定训练过程
Residual Connection 缓解深层网络训练困难

# 3. Transformer Block

输入向量
  -> LayerNorm
  -> Self-Attention
  -> 残差连接
  -> LayerNorm
  -> Feed Forward
  -> 残差连接
  -> 输出向量

大模型通常由很多层 Transformer Block 堆叠而成。层数、隐藏维度、注意力头数量和训练数据规模共同影响模型能力。

# 4. Encoder、Decoder 与 Decoder-only

架构 特点 适合任务
Encoder-only 理解输入,输出表示 分类、检索、Embedding
Encoder-Decoder 输入理解 + 输出生成 翻译、摘要、文本到文本
Decoder-only 根据已有上下文生成下一个 Token 对话、写作、代码生成

许多大语言模型采用 Decoder-only 架构。它的训练目标通常是预测下一个 Token,因此非常适合连续生成文本。

# 5. 工程理解

对应用开发者来说,不必一开始掌握所有数学细节,但要理解三个事实:

  1. 模型是基于上下文生成下一个 Token。
  2. 上下文越长,计算和成本通常越高。
  3. 模型输出不是查数据库,而是基于概率生成。

这些事实会直接影响 Prompt 设计、RAG 上下文拼接、成本控制和幻觉治理。

# 6. 常见误区

误区 正确认知
Transformer 等于大模型 Transformer 是架构,大模型还依赖数据、训练和对齐
注意力能记住所有信息 上下文窗口有限,注意力也会受干扰
模型真的理解事实 模型学习的是统计关联和表示,事实可靠性需要外部验证

# 7. Tips 快问快答

Q:为什么大模型能做很多任务?

A:大规模预训练让模型学习了语言、知识和任务模式,指令微调让它更会按照人的要求输出。

Q:Transformer 为什么适合并行训练?

A:Self-Attention 可以同时计算序列中多个位置之间的关系,比逐步处理序列的模型更适合大规模并行。

Q:应用开发需要读 Transformer 源码吗?

A:不一定。应用开发更需要理解 Token、上下文、生成参数、能力边界和工程治理。

上次更新: 2026/06/25, 17:53:09
大模型基础概述
注意力机制Attention

← 大模型基础概述 注意力机制Attention→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式