大模型开源简史，追赶chatGPT的重要推手!-Toy模板网

这篇具有很好参考价值的文章主要介绍了大模型开源简史，追赶chatGPT的重要推手!。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

大型语言模型（LLMs）已经彻底改变了人工智能领域，它们的长期影响力越来越强大。OpenAI的ChatGPT是一种高度先进的对话型人工智能，在最近几个月取得了重大突破，引发了公司和研究人员之间的激烈竞争。许多人正竞相开发最先进的对话型人工智能系统，争夺与OpenAI的卓越成就相媲美的地位。

谷歌通过Bard做出了贡献，它在PaLM-E上进行了微调， openAI开发了一个具有多模态功能的GPT-4大型语言模型。此外，Meta开发了自己的LLM，称为LLaMa，作为对开源LLM推动的回应。最近涌现了大量与最新LLM相关的信息，尤其是因为Meta选择仅向研究社区分享LLaMa的架构，用于非商业目的。

有趣的是，LLaMa的权重最终泄露出来，使任何人，不仅仅是专家或商业实体，都能够亲自尝试这些高性能模型。

Meta于2023年2月24日发布了LLaMa，其主要目标是为学术研究社区提供这个性能卓越的LLM的使用权限。该团队提供了四个版本的LLaMa，具有不同的参数：7B、13B、33B和65B。与其他大型语言模型一样，LLaMa输入一个单词序列并预测下一个单词，以递归生成文本。根据其论文，LLaMa-13B在大多数基准测试中超过了GPT-3（175B），而LLaMa-65B则与最佳模型（如Chinchilla-70B（DeepMind）和PaLM-540B（Google））相媲美。

LLaMa模型通过Facebook Research GitHub公开发布，供研究社区非商业目的使用。然而，只有未经训练的模型可供使用，训练权重可通过Google表单单独获取，供研究目的使用。值得注意的是，以这种规模训练LLaMa需要2048个A100 GPU，每个GPU的成本约为15,000美元。这显示了创建这样一个模型所需的巨大资源。

除了开销之外，拥有大型干净的数据集对于训练LLaMa至关重要。这些模型需要数万亿的令牌进行训练，LLaMa-65B和LLaMa-33B的训练数据量为1.4万亿个令牌，而LLaMa-7B的训练数据量为1万亿个令牌。通过使用这些预训练的LLM，可以进行微调，以获得能够进行人类交互的对话模型，如ChatGPT的复制品。

然而，一个重要的挑战是在不花费数百万美元进行人工干预的情况下获取微调模型所需的数据。这就是OpenAI用于训练InstructGPT（ChatGPT背后的模型）的方法。

斯坦福大学的研究人员发现了一种廉价的替代方法，可以在不花费太多资金的情况下对LLaMa进行微调。他们介绍了Alpaca-7B，这是一个从LLaMa-7B模型上进行微调的模型，使用了52000个指令遵循演示。指令遵循模型（如ChatGPT）的一个关键问题是产生虚假信息、传播社会刻板印象和生成有害语言。

为了解决这些问题，OpenAI花费了数百万美元使用人类反馈（RLHF）评估“糟糕”的答案，从而创建了InstructGPT。然而，OpenAI并未公开用于训练InstructGPT的数据集，使得复制这种模型成为一项挑战。斯坦福大学的研究人员通过使用基于InstructGPT构建的Da-Vinci-003来生成175个自我指导的种子任务的52000个指令遵循示例，来解决这个问题。

根据斯坦福团队的说法，生成这52000个指令遵循示例的成本约为500美元，使用8个80GB的A100 GPU对模型进行训练的成本约为100美元，仅需三个小时。尽管模型规模较小，但Alpaca和Da-Vinci-003在答案质量方面在人类评估中表现相似。

此外，Vicuna是基于LLaMa原始模型构建的，据称在指令遵循任务上的性能几乎与OpenAI的ChatGPT或谷歌的Bard相媲美，而总体训练成本仅为300美元。已经发布了两个供非商业使用的Vicuna版本：7B和13B参数。与之前的模型相比，Vicuna的一个重大升级是最大上下文长度的增加，从Alpaca的512个标记增加到2048个标记。

然而，这些模型的一个限制是它们庞大的大小和对内存的高要求。部署这些模型需要高能耗和财务成本。这个限制使得一些开发者认为只有拥有大规模基础设施的企业才能真正从这些模型中受益。但是，格奥尔基·格尔加诺夫（Georgi Gerganov）在llama.ccp上的工作改变了这一情况。

格尔加诺夫的llama.ccp代码将原本用Python编写的流程型LLM转化为C/C++语言，将LLMs推向了一个新的水平。C/C++是一种低级编程语言，不需要机器编译，因此执行速度更快。此外，该代码支持4位量化，这是一种将32位浮点数（如权重和激活输出）转换为最接近的8位定点数的过程，从而使模型更小，推理速度更快。

得益于格尔加诺夫和其他人的贡献，再加上泄露的LLaMa权重，现在可以直接在笔记本电脑上运行任何指令遵循模型（如Alpaca或Vicuna）。多个项目详细介绍了使用llama.ccp在个人设备上运行Vicuna的过程，为无需大量资源限制的可访问的开源人工智能进展铺平了道路。

阅读

英文原文

AI好书推荐

AI日新月异，但是万丈高楼拔地起，离不开良好的基础。您是否有兴趣了解人工智能的原理和实践？不要再观望！我们关于 AI 原则和实践的书是任何想要深入了解 AI 世界的人的完美资源。由该领域的领先专家撰写，这本综合指南涵盖了从机器学习的基础知识到构建智能系统的高级技术的所有内容。无论您是初学者还是经验丰富的 AI 从业者，本书都能满足您的需求。那为什么还要等呢？

人工智能原理与实践全面涵盖人工智能和数据科学各个重要体系经典

北大出版社，人工智能原理与实践人工智能和数据科学从入门到精通详解机器学习深度学习算法原理文章来源地址https://www.toymoban.com/news/detail-487859.html

到了这里，关于大模型开源简史，追赶chatGPT的重要推手!的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！