← 返回 Transformer 专题 2020 · OpenAI GPT-3 原理:175B 参数与提示学习
GPT-3 把参数量推到 175B,并首次系统性研究「提示即编程」:只给少量示例或任务描述,模型即可在推理阶段完成任务。这让
In-Context Learning 成为大模型标配;也让人们意识到规模扩展的强大。
亮点:Mixture 数据、96 层解码器、Few-shot Prompting
1. 数据与计算规模
- 数据集:Common Crawl(过滤后 410B token)、WebText2、Books1/2、Wikipedia 等混合。
- 训练 token:300B,batch size 3.2M tokens,训练 355 GPU-years(V100)。
- 混合策略:对不同来源赋权,保证语料多样但不过度偏向爬虫数据。
多数据混合 + 权重采样,减轻单一语料偏差。 2. 架构细节
- 96 层 Transformer Decoder,隐藏维度 12,288,注意力头 96(每头 128 维)。
- 上下文长度 2048,进一步提升长文推理。
- 使用 Sparse Attention kernel(优化版),以更好利用 GPU。
- 优化器仍为 Adam,但梯度裁剪 + 混合精度以稳定训练。
3. In-Context Learning 机制
无需更新权重,GPT-3 仅凭提示中的上下文示例就能完成任务。 - Few-shot:给 10~100 条示例,性能接近专门微调的模型(例如 SuperGLUE 某些任务)。
- One-shot:只给 1 条示例,仍有显著提升。
- Zero-shot:仅用任务描述也能执行,是 GPT-2 Zero-shot 实验的加强版。
4. 提示工程初步经验
- 提示最好明确任务 + 格式,例如 “Answer True or False”。
- 示例顺序与表述方式会影响输出,反映了模型对“上下文分布”的敏感性。
- 合适的温度(0.7 左右)和核采样(p=0.9)平衡多样性与可靠性。
API 化
OpenAI 没有开源 GPT-3,只通过 API 提供,在工程侧推广 Prompt 设计与安全过滤。
5. 局限与影响
- 训练成本极高(百万美元级),并带来能耗争议。
- 缺乏对知识更新的机制,需重新训练或借助 Retrieval-Augmented 技术。
- 易产生偏见与幻觉,推动后续安全、对齐研究。
GPT-3 之后,社区进入「Scaling Law + Prompting」时代,催生了 GPT-3.5/4、PaLM、LLaMA
等更大模型,也让提示工程成为开发者技能之一。