为什么开源语言大模型很重要?

这篇具有很好参考价值的文章主要介绍了为什么开源语言大模型很重要?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

为什么开源语言大模型很重要?,业界观点,开源,大模型,语言模型,LLM,llama

在LLM领域,开源究竟意味着什么?假设开源社区拥有了真正的开源LLM,其权重、数据集、代码和基础设施都可公开获取,我们又将从中获得哪些重要收益?

本文作者为Vikram Sreekanti和Joseph E. Gonzalez,前者是Aqueduct的联合创始人及CEO,后者是加州大学伯克利分校的教授和Run LLM联合创始人,他们就开源的重要性与核心价值进行了探讨。

(本文由OneFlow编译发布,转载请联系授权。原文:https://generatingconversation.substack.com/p/why-open-source-llms-matter)

作者 | Vikram Sreekanti & Joseph E. Gonzalez

OneFlow编译

翻译|宛子琳

开源确实令人着迷。作为拥有悠久开源传统的伯克利大学的一员,我们普遍都是开源软件的忠实拥护者。但坦白来讲,人们关于开源的众多讨论都显得极其模糊。开源的倡导者往往强调开源LLM毋庸置疑的优势,却鲜有说明他们希望看到的具体内容。

这促使我们开始思考开源LLM的重要性,以及它们可能带来的益处。

但首先让我们锚定一个具体的讨论主题,对于LLM来说,究竟什么是开源?以下是几种定义:

  • 公开可用的权重:LLaMa 2和Mistral这样的模型属于这一类别。这些模型基于相当宽松的许可证发布构成模型的权重文件,以便用户能够获取这些模型并进行自定义部署。

  • 公开可用的数据集:据我们所知,目前还没有任何主流的开源LLM这样做,但公开模型数据将会产生重要影响,它将使社区了解模型的潜在偏见和缺陷。

  • 公开可用的训练代码及基础设施:迄今为止,大部分大模型构建者都将这一点严格保密。因为模型训练过程中包含大量的配置参数,再加上人类反馈强化学习(RLHF)的过程,因此公开这类信息有助于社区从基本原理层面理解模型。

正如其他地方所讨论的那样,数据集的创建过程和嵌入在模型训练过程中的专业知识都被严格保密。主流的开源模型供应商很少(或不)发布有关用户数据集的信息,这让开源社区很失望。因此,到目前为止,我们主要见到的是公开可用的模型权重,但关于数据集、训练代码和基础设施的信息却少之又少。

让我们回到最初的问题。假设开源倡导者赢得了这场战役,如果我们拥有真正开源的语言大模型,其权重、数据集以及代码和基础设施都可获取,那么我们将从中获得哪些重要价值?

  • 社区监督: 了解模型的盲点和缺陷对于未来的模型改进和对齐研究至关重要。通过简单地与GPT这样的模型进行聊天交互或使用其API,就已经能够发现很多盲点,研究人员可以通过托管模型来推动边界,用于测试策略。在洞察模型的偏见方面,模型底层数据集的可见性能否提供有价值的见解,这一点仍有待探讨。显然,模型构建者所做的编辑选择(如删除或包含数据)十分重要;然而,鉴于数据使用的大规模投资和潜在的法律风险,我们看到这些数据集完整公开的可能性非常小(除非政府干预)。

  • 重构模型:在缺乏相关数据集和代码信息的情况下,这一点让开源社区感到非常沮丧。理想情况下,社区通过重新创建现有模型可以让研究人员尝试不同的模型参数和对齐方式。但现实情况是,这些模型的规模使得重新创建变得不大可能,甚至完全不可行。仅仅是训练所需的GPU成本就令人望而却步,而RLHF所需的基础设施和人力成本更是难以负担。与普通的存储基础设施不同,用户实际上可以使用Minio来代替AWS S3,但重新创建模型所需的硬件和时间成本使得这一有效的实验变得无法完成。社区所付出的努力不足以重新创建GPT(甚至是LLaMA)规模级别的模型———公共部门或大型研究机构可能会取得一定进展,但自下而上的实验仍然不可能实现。对齐研究很可能必须被视为现有模型的附加内容。

  • 自托管与定制部署:这是一个关注热点,尽管在某些高度敏感的安全场景下,企业可能需要定制的大模型。我们确信OpenAI和Azure(以及相应的AWS + Athropic和GCP)会解决这一问题。由于模型质量存在巨大差距,用户如果可以安全部署私有模型(特别是具备适当的数据共享保护),那么他们选择开源LLM的意愿就会降低。就在本周,我们与一家市值约1000亿美元的科技公司进行了交流,他们正与一家主要的云服务供应商洽谈共享私人信息的条款,用于云服务供应商的LLM部署。现实情况是,主流的模型供应商具备规模经济与高效部署的优势,其他的竞争对手难以超越。

  • 专有化:这在我们在之前的文章中提到过,也是最具说服力的观点。开源LLM模型是开发专有化模型的良好基础。虽然GPT微调API功能强大,但它仅能通过LoRA进行微调(而不是完全权重更新),并且限制用户应用更高级的模型专有技术(如RLHF或RLCF),这些技术在专有化模型日益成熟时很可能极具价值。这就是未来几年中开源模型最有可能蓬勃发展的领域。

开源模型在专有化方面已经十分强大。有人指出,Code-LLaMA 34B已经是目前最好的代码模型,对此我们非常赞同!这是领域专用模型的一个绝佳的成功案例。不幸的是,由于训练模型所需的GPU和时间投资,微调可能仍然非常昂贵。幸运的是,我们已经从许多实际案例中得知(包括我们自己的工作中),微调模型不需要达到GPT-4等模型的规模和通用性。

这一思路引出一个显而易见的的结论:开源模型不需要变得更好,只需要变得更小和更专用。此前的文章曾指出,开源LLM需要在成本和规模方面提升大约两个量级,才能赶上GPT。如果它们能够跨越这一障碍,就可以提高企业对模型进行有效专用化的水准,并为开源软件的发展提供一条可行的路径。

我们对开源的价值有着坚定的信念,但结果很明显,开源模型无法与托管的通用模型的质量相抗衡。不过,这并不意味着失败,而是新的机会。做微调模型的用户并不需要最通用的模型,而是需要一个能够为他们的任务进行良好训练的模型。如果开源模型能够在轻量级的同时保持高质量,这就是未来市场的机会所在,将会有一个崭新的专有化领域静候开启。

其他人都在看

  • GPU架构与计算入门指南

  • 开源语言大模型的正确姿势

  • 为什么开源大模型终将胜出

  • LoRA和QLoRA微调语言大模型

  • OpenAI规模经济与第二护城河

  • 全面对比GPT-3.5与LLaMA 2微调

  • 语言大模型推理性能工程:最佳实践

试用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/文章来源地址https://www.toymoban.com/news/detail-753320.html

到了这里,关于为什么开源语言大模型很重要?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AIGC基础:大型语言模型 (LLM) 为什么使用向量数据库,嵌入(Embeddings)又是什么?

    嵌入: 它是指什么?嵌入是将数据(例如文本、图像或代码)转换为高维向量的数值表示。这些向量捕捉了数据点之间的语义含义和关系。可以将其理解为将复杂数据翻译成 LLM 可以理解的语言。 为什么有用?原始数据之间的相似性反映在高维空间中对应向量之间的距离上。

    2024年02月21日
    浏览(60)
  • 大数据为什么如此重要?

    简单来说,大数据就是结构化的传统数据再加上非结构化的新数据。那么传统数据和新数据又是什么呢?传统数据就是IT业务系统里面的数据,如客户资料、财务数据等。这些数据是结构化的,量也不是特别大,一般只是TB级。对比传统数据,还有一种叫“新数据”,是来源于

    2024年02月08日
    浏览(48)
  • 语言模型ChatGPT,为什么能引领各行各业的AI技术革命

    为什么ChatGPT这样一个语言模型的发展能引发所有行业的AI技术革命呢? 答案就在于它能理解我们的自然语言, 并能将我们的语言转换成计算机能够完全理解的特征。 ChatGPT之所以能引领技术革命,关键在于它能理解我们的自然语言,并能将我们的语言转换成计算机能够完全理

    2023年04月16日
    浏览(59)
  • 什么是可视化编程?为什么它如此重要?

    可视化编程,又叫可视化程序设计,一直以来就是备受讨论的“热门技术”。一方面,程序员抵触它,觉得它不如用代码开发。另一方面,对于产品经理等稍微懂点开发的业余人员,它确实能提供价值。所以,它到底是什么呢?本文将从可视化编程的定义、应用、优势等三个

    2024年02月12日
    浏览(50)
  • 事务的ACID属性是什么?为什么它们很重要?

    在现代的数据库和事务处理系统中,事务处理是一项非常重要的技术。在数据库中,事务是指一组被视为单个逻辑操作单元的SQL语句序列,它们要么全部成功执行,要么全部不执行。事务可以确保数据库在执行时保持一致性和可靠性。ACID属性是事务处理系统中的四个基本属性

    2024年01月18日
    浏览(51)
  • 【API 管理】什么是 API 管理,为什么它很重要?

    当今复杂的数字生态系统由许多相互关联的部分组成。API 作为看门人和连接器在其中发挥着关键作用——提供了许多最终用户甚至没有注意到的自动化机会和效率。 企业密切关注 API。它们对于应用程序、数据和各种客户交互的功能至关重要。 这使得 API 管理成为几乎每个部

    2024年01月19日
    浏览(47)
  • DevSecOps端到端的安全能力构建为什么重要?

    2012年,Gartner首次提出DevSecOps概念,旨在将安全性嵌入开发过程中的每个部分;十年后,DevSecOps已经成为端到端安全能力构建的事实标准。所以,在了解DevSecOps为什么重要以及如何落地之前,我们先从软件开发的角度弄明白什么是DevOps。 软件开发进入现代化之旅 回望过去,软

    2024年02月03日
    浏览(55)
  • 为什么服务映射对于微服务安全至关重要

    在复杂的微服务世界中,安全性至关重要。这些服务的松散耦合、分布式特性以及它们之间不断的相互通信不仅增加了潜在的攻击面,而且还给身份验证、授权、配置管理和管理整体复杂性带来了挑战。 在这些挑战中,服务映射成为提供微服务架构全景的关键过程。它有助于

    2024年02月03日
    浏览(48)
  • 网络审计:为什么定期检查您的网络很重要

    本文分享自天翼云开发者社区《网络审计:为什么定期检查您的网络很重要》,作者:易乾 在数字化时代,网络安全成为组织和个人必须面对的重要挑战。网络审计是一种关键的安全措施,通过定期检查和评估网络系统的安全性,帮助发现潜在的安全漏洞和弱点,从而防止数

    2024年04月17日
    浏览(47)
  • 【人工智能】为什么说大语言模型能力遵循规模理论 Scaling Law(即模型能力随着训练计算量增加而提升) ?

    目录 为什么说大语言模型能力遵循规模理论 Scaling Law(即模型能力随着训练计算量增加而提升) ?

    2024年03月25日
    浏览(73)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包