LLM Research Notes

Transformer · GPT 系列原理图解

记录从 Transformer 到 GPT-1/2/3 的关键设计:自注意力、扩容策略、提示学习与采样技巧,用 SVG 图示和简明数学式辅助理解。

GPT Series

GPT-1 / GPT-2 / GPT-3 系列文章

延续 Transformer 专题,把三代 GPT 的核心设计、数据集与推理方式整理成图文文章。

2018 · 117M

GPT-1:预训练 + 微调的开端

初代 GPT 如何用 BookCorpus 预训练,再通过任务头微调完成分类、QA、蕴含等多任务?

Pretrain Finetune
2019 · 1.5B

GPT-2:大规模自回归与零样本

WebText 训练、长度 1024、Top-k 采样,让 GPT-2 在生成质量和零样本评估上迈出巨大一步。

124M 355M 774M 1.5B
2020 · 175B

GPT-3:In-Context Learning 的崛起

175B 参数、96 层解码器以及提示学习范式,重新定义了通用大模型的使用方式。

Zero One Few

Deep Dive

Transformer 原理图解

Transformer 让「注意力」成为主角。通过抛弃循环结构,它同时对整段序列建模,而不是一个 token 接一个 token 地处理。下面按照由浅入深的顺序讲解。

1. 为什么要发明 Transformer?

早期的 RNN/LSTM 需要逐 token 处理,步步相传的状态既慢又难以捕捉长距离依赖。Transformer 直接把序列映射成矩阵,一次性计算任意两个 token 的「相关度」,天然支持并行。

  • 并行度高:GPU 可把矩阵乘法堆满。
  • 依赖路径短:信息最远只隔两层线性层。
  • 可扩展性强:层数、宽度、头数都能独立横向扩展。

2. 整体架构一图读懂

编码器负责把输入序列压缩成上下文语义;解码器在生成阶段一边看已生成 token,一边通过 cross-attention 读取编码器的语义。

Transformer 编码器-解码器示意 Encoder Stack Decoder Stack 嵌入 + 位置编码 多头自注意力 前馈网络 残差 + LayerNorm Masked 多头注意力 Cross Attention 前馈网络 残差 + LayerNorm Key / Value Softmax + 线性输出
编码器输出 Key/Value,解码器在每个时间步使用它们进行 cross-attention。

3. 自注意力的数学本质

对于一批长度为 n 的 token,Embedding 得到矩阵 X ∈ ℝn×d_model。线性层把它投影为 Q、K、V:

Q = X · WQ,  K = X · WK,  V = X · WV

注意力分数通过 QKᵀ/√dk 得到,Softmax 后与 V 相乘完成信息加权。缩放项抑制大向量带来的梯度爆炸。

Scaled Dot-Product Attention 流程 Q K V Q · Kᵀ / √dk Softmax Attention · V Dropout(optional)
缩放点积注意力将任意 token 对之间的关系映射成权重矩阵。

4. 多头注意力与子空间

单个注意力头可能只能关注一种模式(例如语法依赖)。通过把向量拆成多个子空间,每个头可以学习不同特征,再把各子空间拼接回 d_model 维度。

  • 每个头拥有独立的 WQ/K/V
  • 并行计算后 Concat,再乘以 WO 融合。
  • 头数不是越多越好:受限于显存与训练样本。

5. 位置编码与残差

Transformer 自己不懂位置,需要使用正弦/余弦编码或学习型位置嵌入把顺序注入到向量。残差连接让梯度更容易流动,LayerNorm 则保持数值稳定。

原始论文使用固定正余弦,频率覆盖不同尺度;现代 LLM(如 LLaMA)常用 RoPE(旋转位置编码)来捕捉相对位置信息。

6. 从训练到应用

Transformer 可以用于编码任务(BERT 系列)、自回归生成(GPT 系列)、编码解码(T5、BART)。训练时需注意:

  • Warmup 学习率:前期线性上升,再按 d_model-0.5 衰减。
  • 正则化:Dropout、Label Smoothing、权重衰减。
  • 梯度截断与混合精度,保证稳定与速度。

部署阶段可以用 Int8/Int4 量化减少显存,也可以通过 LoRA、Adapter 等增量学习方式高效微调。

7. 继续深入的方向

RoPE & ALiBi 位置编码 FlashAttention / xFormers Prefix / Prompt Tuning MoE(Mixture of Experts) 结构稀疏注意力(Longformer、Performer) 蒸馏与量化压缩