← 返回 Transformer 专题 2019 · OpenAI

GPT-2 原理:大数据与零样本崛起

GPT-2 在 GPT-1 的解码器架构基础上做到了两件事:把数据扩大到 40GB 的 WebText,并尝试在没有任务微调的情况下直接用提示做 zero-shot 推理。1.5B 参数版本在文本生成、摘要、翻译上展示了惊人的泛化。

关键词:WebText、零样本评估、Top-k/核采样

1. WebText 数据构建

OpenAI 抓取 Reddit 中 karma ≥ 3 的外链,过滤得到约 80 亿 token 的多领域文本(不含 Wikipedia),命名为 WebText。

2. 模型规模梯度

GPT-2 参数梯度 124M 355M 774M 1.5B Release? 12L · 12H 24L · 16H 36L · 20H 48L · 25H “完整”GPT-2
不同大小共享架构,仅通过层数、宽度、头数扩展;最终 1.5B 版本最初未完全开放。

通过逐步扩大参数,OpenAI 分析「增加规模是否持续带来收益」,结论是:生成质量与任务评估得分几乎与 log(参数量) 线性相关。

3. 序列长度与优化

4. 推理:Top-k & 核采样

Top-k / 核采样 Top-k 排序概率 保留 k=40 剩余归一化再采样 核采样 (Top-p) 累计概率 ≥ p=0.9 动态候选集合 避免重复/崩坏 温度 τ Softmax(logits/τ) 控制多样性
解码时通过限制候选集合 + 温度采样来兼顾流畅与多样性,降低模型“胡说”概率。

这些采样技巧后来成为 GPT 系列和大多文本生成模型的默认设置。

5. Zero-shot 评估与安全

GPT-2 标志着「扩容 + 纯自回归 + 提示工程」路线的可行性,为更大规模的 GPT-3 奠定基础。