解密：GPT-4框架与训练过程，数据集组成，并行性的策略，专家权衡，推理权衡等细节内容-Toy模板网

这篇具有很好参考价值的文章主要介绍了解密：GPT-4框架与训练过程，数据集组成，并行性的策略，专家权衡，推理权衡等细节内容。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大家好，我是微学AI，今天给大家解密一下GPT-4框架与训练过程，数据集组成，并行性的策略，专家权衡，推理权衡等细节内容。2023年3月14日，OpenAI发布GPT-4，然而GPT-4的框架没有公开，OpenAI之所以不公开GPT-4的架构，并不是因为存在对人类的潜在威胁，而是因为他们所建立的模型是可以被复制的。事实上，我们预计Google、Meta、Anthropic、Inflection、Character、腾讯、阿里、百度等公司在短期内都会拥有与GPT-4同样甚至更强大的模型。当然，OpenAI具有令人惊叹的工程能力，他们所构建的东西也是令人难以置信的，但是他们所采用的解决方案并非神奇。这是一个实用的方案，其中包含许多复杂的权衡。OpenAI最大优势在于他们拥有最多的真实世界使用情况、领先的工程人才，并且可以通过未来的模型继续领先其他公司。

GPT-4现状

我们从多个信息源收集到了关于GPT-4的大量信息，今天我们想要分享一些。这包括模型架构、训练基础设施、推理基础设施、参数数量、训练数据集组成、标记数量、层次数量、并行策略、多模态视觉适应性、不同工程权衡背后的思考过程、已实施的独特技术，以及他们如何缓解与庞大模型推理相关的一些最大瓶颈。

GPT-4最有趣的方面在于理解他们为什么做出了某些架构决策。此外，我们还将概述GPT-4在A100上进行训练和推理的成本，并介绍与下一代模型架构使用H100相比的规模。

首先，让我们来看一下问题陈述。从GPT-3到GPT-4，OpenAI希望将规模扩大100倍，但问题的关键在于成本。稠密的Transformer模型无法进一步扩展。稠密的Transformer是OpenAI GPT-3、Google PaLM、Meta LLAMA、TII Falcon、MosaicML MPT等模型所使用的模型架构。我们可以轻松地列举出50家使用相同架构进行LLM训练的公司。这是一个好的架构，但在扩展性方面存在缺陷。

GPT-4框架

GPT-4的规模是GPT-3的10倍以上。据我们了解，它有大约1.8万亿个参数，分布在120个层，而GPT-3只有大约1750亿个参数。

OpenAI通过使用混合专家（MoE）模型，成功地将成本控制在合理范围内。

此外，OpenAI的模型中有16位专家，每位专家的多层感知机（MLP）参数约为1110亿个。每次前向传递（forward pass）有两位专家进行路由。

尽管文献中谈到了选择将每个tokens路由到哪个专家的高级路由算法，但据说OpenAI当前的GPT-4模型相对简单。

此外，注意力机制中大约有550亿个共享参数。

每次前向推导（生成一个标记）时，仅使用大约2800亿个参数和560 TFLOPS。这与完全密集模型每个前向传递所需的大约1.8万亿个参数和3700 TFLOPs形成鲜明对比。

数据集组成

OpenAI在大约13万亿个tokens上对GPT-4进行了训练。考虑到CommonCrawl的RefinedWeb中包含大约5万亿个高质量tokens，这是有道理的。作为参考，Deepmind的Chinchilla模型和Google的PaLM模型分别使用了大约1.4万亿个和0.78万亿个tokens进行训练。甚至据称PaLM 2也是基于大约5万亿个tokens进行训练的。

这个数据集并不包含13万亿个独特的tokens。相反，由于缺乏高质量的tokens，该数据集包含多个时期。文本数据经历了2个时期，而代码数据则经历了4个时期。有趣的是，这远远少于Chinchilla的最佳状态，这表明需要以两倍的tokens数量对模型进行训练。这表明在网络上很难找到易获取的tokens。存在着比之前提到的高质量文本tokens多1000倍的数量，甚至还有更多的音频和视觉tokens，但是获取它们并不像简单的网页文章来源地址https://www.toymoban.com/news/detail-561215.html

到了这里，关于解密：GPT-4框架与训练过程，数据集组成，并行性的策略，专家权衡，推理权衡等细节内容的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！