← 返回 Transformer 专题 2020 · OpenAI

GPT-3 原理:175B 参数与提示学习

GPT-3 把参数量推到 175B,并首次系统性研究「提示即编程」:只给少量示例或任务描述,模型即可在推理阶段完成任务。这让 In-Context Learning 成为大模型标配;也让人们意识到规模扩展的强大。

亮点:Mixture 数据、96 层解码器、Few-shot Prompting

1. 数据与计算规模

GPT-3 数据配比 Common Crawl 60% WebText2 22% Books 13% Wiki 5% 其它 2%
多数据混合 + 权重采样,减轻单一语料偏差。

2. 架构细节

3. In-Context Learning 机制

提示学习示意 Task: Translate English to French. Few-shot examples: cat → chat, tree → arbre Prompt: dog → ? 模型输出:chien
无需更新权重,GPT-3 仅凭提示中的上下文示例就能完成任务。

4. 提示工程初步经验

API 化

OpenAI 没有开源 GPT-3,只通过 API 提供,在工程侧推广 Prompt 设计与安全过滤。

5. 局限与影响

GPT-3 之后,社区进入「Scaling Law + Prompting」时代,催生了 GPT-3.5/4、PaLM、LLaMA 等更大模型,也让提示工程成为开发者技能之一。