← 返回 Transformer 专题 2020 · OpenAI

GPT-3 原理：175B 参数与提示学习

GPT-3 把参数量推到 175B，并首次系统性研究「提示即编程」：只给少量示例或任务描述，模型即可在推理阶段完成任务。这让 In-Context Learning 成为大模型标配；也让人们意识到规模扩展的强大。

亮点：Mixture 数据、96 层解码器、Few-shot Prompting

1. 数据与计算规模

数据集：Common Crawl（过滤后 410B token）、WebText2、Books1/2、Wikipedia 等混合。
训练 token：300B，batch size 3.2M tokens，训练 355 GPU-years（V100）。
混合策略：对不同来源赋权，保证语料多样但不过度偏向爬虫数据。

多数据混合 + 权重采样，减轻单一语料偏差。

2. 架构细节

96 层 Transformer Decoder，隐藏维度 12,288，注意力头 96（每头 128 维）。
上下文长度 2048，进一步提升长文推理。
使用 Sparse Attention kernel（优化版），以更好利用 GPU。
优化器仍为 Adam，但梯度裁剪 + 混合精度以稳定训练。

3. In-Context Learning 机制

无需更新权重，GPT-3 仅凭提示中的上下文示例就能完成任务。

Few-shot：给 10~100 条示例，性能接近专门微调的模型（例如 SuperGLUE 某些任务）。
One-shot：只给 1 条示例，仍有显著提升。
Zero-shot：仅用任务描述也能执行，是 GPT-2 Zero-shot 实验的加强版。

4. 提示工程初步经验

提示最好明确任务 + 格式，例如 “Answer True or False”。
示例顺序与表述方式会影响输出，反映了模型对“上下文分布”的敏感性。
合适的温度（0.7 左右）和核采样（p=0.9）平衡多样性与可靠性。

API 化

OpenAI 没有开源 GPT-3，只通过 API 提供，在工程侧推广 Prompt 设计与安全过滤。

5. 局限与影响

训练成本极高（百万美元级），并带来能耗争议。
缺乏对知识更新的机制，需重新训练或借助 Retrieval-Augmented 技术。
易产生偏见与幻觉，推动后续安全、对齐研究。

GPT-3 之后，社区进入「Scaling Law + Prompting」时代，催生了 GPT-3.5/4、PaLM、LLaMA 等更大模型，也让提示工程成为开发者技能之一。