大模型开源简史,追赶chatGPT的重要推手!

这篇具有很好参考价值的文章主要介绍了大模型开源简史,追赶chatGPT的重要推手!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大型语言模型(LLMs)已经彻底改变了人工智能领域,它们的长期影响力越来越强大。OpenAI的ChatGPT是一种高度先进的对话型人工智能,在最近几个月取得了重大突破,引发了公司和研究人员之间的激烈竞争。许多人正竞相开发最先进的对话型人工智能系统,争夺与OpenAI的卓越成就相媲美的地位。

谷歌通过Bard做出了贡献,它在PaLM-E上进行了微调, openAI开发了一个具有多模态功能的GPT-4大型语言模型。此外,Meta开发了自己的LLM,称为LLaMa,作为对开源LLM推动的回应。最近涌现了大量与最新LLM相关的信息,尤其是因为Meta选择仅向研究社区分享LLaMa的架构,用于非商业目的。

有趣的是,LLaMa的权重最终泄露出来,使任何人,不仅仅是专家或商业实体,都能够亲自尝试这些高性能模型。

Meta于2023年2月24日发布了LLaMa,其主要目标是为学术研究社区提供这个性能卓越的LLM的使用权限。该团队提供了四个版本的LLaMa,具有不同的参数:7B、13B、33B和65B。与其他大型语言模型一样,LLaMa输入一个单词序列并预测下一个单词,以递归生成文本。根据其论文,LLaMa-13B在大多数基准测试中超过了GPT-3(175B),而LLaMa-65B则与最佳模型(如Chinchilla-70B(DeepMind)和PaLM-540B(Google))相媲美。

LLaMa模型通过Facebook Research GitHub公开发布,供研究社区非商业目的使用。然而,只有未经训练的模型可供使用,训练权重可通过Google表单单独获取,供研究目的使用。值得注意的是,以这种规模训练LLaMa需要2048个A100 GPU,每个GPU的成本约为15,000美元。这显示了创建这样一个模型所需的巨大资源。

除了开销之外,拥有大型干净的数据集对于训练LLaMa至关重要。这些模型需要数万亿的令牌进行训练,LLaMa-65B和LLaMa-33B的训练数据量为1.4万亿个令牌,而LLaMa-7B的训练数据量为1万亿个令牌。通过使用这些预训练的LLM,可以进行微调,以获得能够进行人类交互的对话模型,如ChatGPT的复制品。

然而,一个重要的挑战是在不花费数百万美元进行人工干预的情况下获取微调模型所需的数据。这就是OpenAI用于训练InstructGPT(ChatGPT背后的模型)的方法。

斯坦福大学的研究人员发现了一种廉价的替代方法,可以在不花费太多资金的情况下对LLaMa进行微调。他们介绍了Alpaca-7B,这是一个从LLaMa-7B模型上进行微调的模型,使用了52000个指令遵循演示。指令遵循模型(如ChatGPT)的一个关键问题是产生虚假信息、传播社会刻板印象和生成有害语言。

为了解决这些问题,OpenAI花费了数百万美元使用人类反馈(RLHF)评估“糟糕”的答案,从而创建了InstructGPT。然而,OpenAI并未公开用于训练InstructGPT的数据集,使得复制这种模型成为一项挑战。斯坦福大学的研究人员通过使用基于InstructGPT构建的Da-Vinci-003来生成175个自我指导的种子任务的52000个指令遵循示例,来解决这个问题。

根据斯坦福团队的说法,生成这52000个指令遵循示例的成本约为500美元,使用8个80GB的A100 GPU对模型进行训练的成本约为100美元,仅需三个小时。尽管模型规模较小,但Alpaca和Da-Vinci-003在答案质量方面在人类评估中表现相似。

此外,Vicuna是基于LLaMa原始模型构建的,据称在指令遵循任务上的性能几乎与OpenAI的ChatGPT或谷歌的Bard相媲美,而总体训练成本仅为300美元。已经发布了两个供非商业使用的Vicuna版本:7B和13B参数。与之前的模型相比,Vicuna的一个重大升级是最大上下文长度的增加,从Alpaca的512个标记增加到2048个标记。

然而,这些模型的一个限制是它们庞大的大小和对内存的高要求。部署这些模型需要高能耗和财务成本。这个限制使得一些开发者认为只有拥有大规模基础设施的企业才能真正从这些模型中受益。但是,格奥尔基·格尔加诺夫(Georgi Gerganov)在llama.ccp上的工作改变了这一情况。

格尔加诺夫的llama.ccp代码将原本用Python编写的流程型LLM转化为C/C++语言,将LLMs推向了一个新的水平。C/C++是一种低级编程语言,不需要机器编译,因此执行速度更快。此外,该代码支持4位量化,这是一种将32位浮点数(如权重和激活输出)转换为最接近的8位定点数的过程,从而使模型更小,推理速度更快。

得益于格尔加诺夫和其他人的贡献,再加上泄露的LLaMa权重,现在可以直接在笔记本电脑上运行任何指令遵循模型(如Alpaca或Vicuna)。多个项目详细介绍了使用llama.ccp在个人设备上运行Vicuna的过程,为无需大量资源限制的可访问的开源人工智能进展铺平了道路。

阅读

英文原文

推荐

公众号

AI好书推荐

AI日新月异,但是万丈高楼拔地起,离不开良好的基础。您是否有兴趣了解人工智能的原理和实践? 不要再观望! 我们关于 AI 原则和实践的书是任何想要深入了解 AI 世界的人的完美资源。 由该领域的领先专家撰写,这本综合指南涵盖了从机器学习的基础知识到构建智能系统的高级技术的所有内容。 无论您是初学者还是经验丰富的 AI 从业者,本书都能满足您的需求。 那为什么还要等呢?

人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典

北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理 文章来源地址https://www.toymoban.com/news/detail-487859.html

到了这里,关于大模型开源简史,追赶chatGPT的重要推手!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 技术速览|Meta Llama 2 下一代开源大型语言模型

    AI 使用大型语言模型(LLM)来理解和生成自然语言。LLM 可以从大量文本中学习并创建有关各种主题的文本,并可以完成比如编写代码、生成歌词、总结文章等任务。但有些 LLM 相关课程成本高昂且封闭,而现有的开放课程数量十分有限。这就是 Meta 推出新的开源 LLM Llama 2 的原

    2024年02月16日
    浏览(45)
  • 为什么开源语言大模型很重要?

    在LLM领域,开源究竟意味着什么?假设开源社区拥有了真正的开源LLM,其权重、数据集、代码和基础设施都可公开获取,我们又将从中获得哪些重要收益? 本文作者为Vikram Sreekanti和Joseph E. Gonzalez,前者是Aqueduct的联合创始人及CEO,后者是加州大学伯克利分校的教授和Run LLM联

    2024年02月05日
    浏览(63)
  • 追赶ChatGPT,我们的差距在哪里?

     3月底举行的博鳌亚洲论坛上,腾讯集团高级执行副总裁汤道生披露,腾讯正在研发AIGC以及大模型相关技术,类ChatGPT的对话机器人也在酝酿中。 百度、华为,如今再加上腾讯,ChatGPT出现之后,中国的互联网科技企业似乎一夜觉醒。不光公司,还有资本及创业大佬。 3月19日

    2023年04月14日
    浏览(44)
  • Zoho:集成ChatGPT、开发大型语言模型,加紧布局AI+SaaS

    在企业的数字化转型进程中,管理层和员工的数字化意识会随着建设的推进而不断提高,对于办公场景的数字化应用需求也不断产生。传统的办公系统建设中,系统的应用能力需要支撑越来越丰富的场景需求。 《今日人工智能》采访到 Zoho中国VP兼SaaS事业部COO 夏海峰 ,作为

    2024年02月09日
    浏览(61)
  • Meta与微软联手推出开源大型语言模型Llama 2;程序员如何优雅地做副业

    🦉 AI新闻 🚀 Meta与微软联手推出开源大型语言模型Llama 2 摘要 :Meta和微软近期合作发布了名为Llama 2的开源大型语言模型。该模型旨在帮助开发者和组织构建生成式人工智能工具和体验。Azure客户可以更轻松、安全地在Azure平台上微调和部署Llama 2模型,也可以优化后在Window

    2024年02月13日
    浏览(53)
  • 【码银送书第六期】《ChatGPT原理与实战:大型语言模型的算法、技术和私有化》

    2022年11月30日,ChatGPT模型问世后,立刻在全球范围内掀起了轩然大波。无论AI从业者还是非从业者,都在热议ChatGPT极具冲击力的交互体验和惊人的生成内容。这使得广大群众重新认识到人工智能的潜力和价值。对于AI从业者来说,ChatGPT模型成为一种思路的扩充,大模型不再是

    2024年02月09日
    浏览(68)
  • 从ChatGPT到ChatCAD:基于大型语言模型的医学图像交互式计算机辅助诊断

    1.   标题: ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using Large Language Models. 2.   期刊: arXiv 3. IF/JCR/分区: 无 4. DOI: arXiv:2302.07257 5. 作者: 沈定刚教授团队 2023年年初最火热的话题之一就是OpenAI的ChatGPT1,给人类带来了巨大的冲击。1月底,美国《财富》杂志2/3月合刊的

    2023年04月14日
    浏览(39)
  • 一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

    返回论文和资料目录 LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源的代码在github上可以很方便获得

    2024年02月09日
    浏览(47)
  • LLMs:《A Survey on Evaluation of Large Language Models大型语言模型评估综述》理解智能本质(具备推理能力)、AI评估的重要性(识别当前算法的局限性+设

    LLMs:《A Survey on Evaluation of Large Language Models大型语言模型评估综述》翻译与解读 导读 :该文章首先介绍了人工智能(AI)对机器智能的专注,并探讨了评估AI模型的方法。随后,重点介绍了大语言模型(LLMs)的背景和特点,以及它们在自然语言处理、推理、生成等各类任务中

    2024年02月03日
    浏览(59)
  • 文心一言 v.s. ChatGPT:多角度对比测评“追赶者”能否超越?

    ChatGPT自发布以来就引发了关注热潮,如今国内大模型的发展也是如火如荼、百花齐放:比如百度的文心一言、阿里的通义千问、讯飞的星火大模型等等,那么作为后起之秀的国内大模型与ChatGPT相比哪个更好用呢?“追赶者”能否实现超越?为了回答这个问题,本文将基于文

    2024年01月22日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包