05. 深入理解 GPT 架构-Toy模板网

这篇具有很好参考价值的文章主要介绍了05. 深入理解 GPT 架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

在本章的前面，我们提到了类 GPT 模型、GPT-3 和 ChatGPT 等术语。现在让我们仔细看看一般的 GPT 架构。首先，GPT 代表生成式预训练转换器，最初是在以下论文中引入的：

通过生成式预训练提高语言理解（2018）作者：Radford 等人，来自 OpenAI，http://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

GPT-3 是该模型的放大版本，具有更多参数并在更大的数据集上进行训练。最初的 ChatGPT 模型是通过使用 OpenAI 的 InstructGPT 论文中的方法在大型指令数据集上微调 GPT-3 而创建的，我们将在第 8 章“使用人类反馈进行微调以遵循指令”中更详细地介绍。正如我们在前面的图 1.6 中看到的，这些模型是称职的文本完成模型，可以执行其他任务，例如拼写更正、分类或语言翻译。这实际上非常了不起，因为 GPT 模型是在相对简单的下一个单词预测任务上预训练的，如图 1.7 所示。