微软1位LLM的时代,性能惊人却体积缩水16倍

这篇具有很好参考价值的文章主要介绍了微软1位LLM的时代,性能惊人却体积缩水16倍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

微软1位LLM的时代,性能惊人却体积缩水16倍,人工智能

说到人工智能(AI)在市场上的表现,真相是铁一般的事实:虽然AI让市场活力四射,但它的价值转化却远远跟不上,因为真正利用AI生产商品和服务的公司不到4%。

更糟糕的是,尽管一些大公司确实开始拥抱AI,但天价的成本阻碍了小公司的跟进,讽刺地将一项本意在于民主化复杂任务、促进竞争力的技术,变成了一台巨大的不平等制造机。

然而,情况可能很快就会改变。微软悄悄发布了一款1.58位的大型语言模型(LLM),其性能与16位的对应物相匹配,同时在成本和速度上都便宜和快了许多倍。

微软称之为1位LLM的时代,你绝对会爱上这个进展的每一秒。

这个见解和其他一些见解大多之前在我的每周简报《科技绿洲》中分享过。

如果你想及时了解AI的疯狂世界,同时感受到被鼓舞去采取行动的冲动,或者至少为我们面前的未来做好准备,那么这就是为你准备的。

🏝请在下面订阅🏝

《科技绿洲》
在AI领域保持领先的简报
thetechoasis.beehiiv.com

没有金钱,就没有派对
尽管AI在研究层面取得了令人印象深刻的成果,但它正遭受着经济、环境影响和价值缺失等多种疾病的侵袭,这些因素阻碍了它成为业界预测的那样。

数字不对劲
即便是现在,企业对AI的采用率也未达到两位数,这一点由美国国家经济研究局的最近一项研究证实,并得到了麻省理工学院的回声。

微软1位LLM的时代,性能惊人却体积缩水16倍,人工智能

但研究显示了一个更令人担忧的迹象,即大公司和其他公司之间存在明显的不平衡。

更糟的是,这种不均衡不仅仅是关于规模,还涉及行业乃至地理位置。

多伦多大学的克里斯蒂娜·麦克埃尔兰总结得最好:

“数字时代已经到来,但到达得不均匀。”

但这远非唯一的问题。对环境的影响也是可怕的。

如果我们考虑到AI行业的碳足迹已经占全球排放量的约1%,并且认识到未来几年AI工作负载将大规模增长,那么我们必须一致认为我们面临着一个问题。

简单地说,除非我们找到一种使AI成为一项高效技术的方式,否则其影响和价值创造将限于大公司,而我们其他人只能构建一些关于德州烧烤的莎士比亚风格的有趣玩具。

然而,由于生成式AI带来的范式转变,即“一对多”的时代,价值创造的机会仍然非常巨大。

基础模型范式


解释AI今天成功的最大原因,莫过于基础模型(FMs),这些模型能执行广泛的不同下游任务。

通过创建巨大的基础AI模型,我们获得了一系列好处,主要是泛化,这使得AI成为一项成功率更高的技术——在AI之前,根据Gartner的说法,失败率高达90%——并且回报更具吸引力。

最终,AI不需要训练就能学习,因为你只需要通过实时提供必要的(通常是私有的)数据来将模型植入每个用例,这个过程正式称为提示工程。

但我们最大的成功也是我们最大的负担。

资金的束缚

前沿AI模型需要运行非常昂贵的硬件,GPU,由于它们的并行化能力。

尽管GPU的基础性不言而喻,但LLM和这些硬件之间的关系远非理想。

首先,大多数模型今天的大小不适合单个GPU。我们当前最好的GPU,如英伟达的H100或英特尔的Gaudi 2,分别只有80GB和96GB的高带宽内存(HBM)。

听起来可能很多,但我们谈论的是像ChatGPT或Gemini Ultra这样的极端案例,可能达到TeraByte大小范围的模型。

因此,我们必须使用分布式计算方法,如FSDP,通过将模型的层分组到单个或一组GPU分配的单元中来“拆分”模型。

我们可以将模型存储在Flash或HDD中吗?

理论上,我们不能。整个模型需要为每一个预测运行,这意味着权重需要对GPU核心可访问,否则检索过程会花费太长时间,延迟将难以忍受。

苹果正在推动的一条有趣的研究线是“Flash LLMs”,通过包含一个预测器,对于每个输入数据,预测LLM的哪些部分需要在RAM内存中,允许将大型模型适配到像iPhone这样的硬件上。

FSDP部分解决了分布问题,但增加了通信开销,因为GPU需要共享它们的计算,无论是训练还是推理。如果事情还不够复杂,GPU的排列也很重要。

目前,最令人兴奋的方法是环形注意力,其中GPU设置在一个环上,以重叠个别GPU的计算和GPU之间的通信开销,以便全局预测时间不受分布式工作负载的限制。

与此同时,像Predibase这样的公司正在提供简单的无服务器框架,你可以将多个模型存储在一个GPU中,大大降低成本,其他组织如Groq甚至建议我们根本不应该使用GPU进行推理工作负载,而是提出了具有疯狂速度的语言处理单元(LPU)。

然而,无论采取哪种方法,关键问题仍然存在,LLM比理想情况要大得多,所有先前的创新都集中在处理大型模型尺寸的问题上。

因此,考虑到内存需求是主要瓶颈,如今一个非常流行的解决方案是对模型进行量化。

而在这里,微软的1位LLM终于登场了。

1.58位可能改变世界


首先,什么是量化?

精度问题


量化是减少模型参数(权重)存储精度的过程,以减小其大小并节省内存,正如我们之前讨论的,这是这些模型的主要瓶颈。

大多数当前的LLM使用16位或2字节精度训练它们的模型。换句话说,模型中的每个权重正好占用2字节的内存。

必须说,模型的某些参数,如训练期间使用的优化器状态,以全精度(4字节)存储,但大多数以2字节存储。

有不同的方法,但概念始终相同,将权重的值压缩到更小的位大小。

一个非常常见的方法是将16位权重转换为4位值。在这一点上,真正的影响可能看起来不清楚,但请耐心看下面的例子。

如果我们取一个已经训练好的50亿参数的LLM,按今天的标准来看是一个相当小的模型,在2字节精度下,我们的模型重100 GB。

为简化例子,我假设一个已经针对短序列训练好的模型,以便KV缓存,一个对长序列有巨大影响的内存需求,可以忽略。

因此,你自动需要至少两个英伟达H100 GPU才能存储模型。

但如果你将权重量化到4位,你基本上将内存需求除以4,所以模型突然变成了“只有”25GB,完美地适合单个GPU。但如果这么神奇,为什么不总是这样做呢?

训练后的权衡
如今,大多数量化程序都是在训练后进行的。也就是说,以混合或全精度(2或4字节)训练模型,然后对模型进行量化。这个过程本身就是一个问题,因为这无可避免地会对性能产生重大影响。

想象一下,你用一个巨大的网球拍训练了很长时间,突然,在比赛开始前,他们给了你一个小得多的。自然,你会很难击中球。

嗯,用训练后量化,我们对模型做了同样的事情,基本上。

但如果我们从头开始训练模型时就对其进行量化呢?

这正是微软所推动的,但采取了极端措施。

AI的未来?
简单来说,微软的论文提出了一种激进的方法,将每个权重的内存分配从16位减少到1.58位,大约减少了16倍的内存需求。换句话说,线性层中的所有权重将有一个值“1”、“-1”或“0”。他们只关注前馈权重,同时保持标准激活和注意力为8位,因为大部分的计算和内存需求累积在前馈层上,而不是在注意力上。但关于微软方法的关键点是,它是“量化意识到的”,意味着他们在训练模型的同时从头开始应用量化。这样,你不是在训练一个特定精度的模型,然后之后剪辑它的值,而是从头开始以量化形式训练模型。另一个值得注意的元素是,通过将这些权重设为+/- 1或0,你基本上避免了矩阵乘法。

但为什么这么重要呢?

微软1位LLM的时代,性能惊人却体积缩水16倍,人工智能

由于乘以1或-1归结为对另一个数字应用符号函数,而0从等式中消除了那个数字,你的矩阵乘法变成了矩阵加法(如上图所示),大大减少了计算需求。

与我们可能期望的相反,这种妥协并没有对性能产生影响,恰恰相反。

速度提高了,但质量并没有下降与类似重量计数的模型相比,该模型不仅表现良好,而且在大多数基准测试中胜过了其对手。

微软1位LLM的时代,性能惊人却体积缩水16倍,人工智能

研究人员随后声称,这种方法的主要好处适用于任何其他大小,并且随着规模的增加变得更加明显,意味着:

“13B BitNet b1.58在延迟、内存使用和能源消耗方面比3B FP16 LLM更高效。”
“30B BitNet b1.58在延迟、内存使用和能源消耗方面比7B FP16 LLM更高效。”
“70B BitNet b1.58在延迟、内存使用和能源消耗方面比13B FP16 LLM更高效。”
正如你所看到的,量化意识到的训练发展了自己的规模定律,因为模型越大,影响越大。

而且在相同大小的比较中,量化的LLM允许11倍更大的批量大小(你可以发送给模型的单个序列数量)以及每秒生成的令牌数量增加9倍。

但这一切意味着什么呢?

简而言之,我们可能已经找到了一种更高效地训练前沿AI模型的方法,同时不影响性能。

如果是这样,我们很快就可能看到1位LLM成为常态,而那些需要不可克服的支出和巨大数据中心的工作负载最终可能在消费者硬件上运行,甚至在你的智能手机上运行。

例如,我们可能在你的iPhone上运行超过+1000亿参数的模型,而这个数字对于配备了必要GPU的最先进的笔记本电脑来说(自然,这已经是大多数高端消费者硬件的情况),可能增长到+300范围。

但我们甚至可以更进一步。

很快,你的数字产品,比如你的智能手机,可能会融入多个不同的LLM并行运行,每个都专注于其下游任务,这可能使LLM在我们生活中变得更加无处不在。

一个LLM处理你的电子邮件,一个LLM处理你的通知,一个LLM编辑你的照片……你说的。

如果这不代表AI价值创造的本质,那我也不知道该怎么告诉你了。

AI的决定性一年
在年初,我预测2024年将更多关注这类创新,而不是“GPT-27”,而这类研究指向了这个方向。

考虑到我们尚未开发出工具来自信地控制和对齐目前在顶级AI实验室开发的超级模型,让我们希望这是真的。文章来源地址https://www.toymoban.com/news/detail-843275.html

到了这里,关于微软1位LLM的时代,性能惊人却体积缩水16倍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 相同性能和体积的磁体,吸力是一样的吗?

    很多小伙伴可能都会有这样一个疑问,相同性能和体积的磁体,它们的吸力一样吗?网上有说钕铁硼磁铁的吸力是自身重量的640倍,这可信吗? 这个问题其实可以发散开,那就是磁铁的吸力与哪些因素有关。首先需要明确的是磁铁只对铁磁性物质具有吸附力,常温下铁磁性材

    2024年02月07日
    浏览(19)
  • 前端性能优化——包体积压缩插件,打包速度提升插件,提升浏览器响应的速率模式

    –其他的优化可以具体在网上搜索 压缩项目打包后的体积大小、提升打包速度,是前端性能优化中非常重要的环节,结合工作中的实践总结,梳理出一些 常规且有效 的性能优化建议 ue 项目可以通过添加–report命令: \\\"build\\\": \\\"vue-cli-service build --report\\\" ,打包后 dist 目录会生成

    2024年02月12日
    浏览(43)
  • LLM时代中的分布式AI

    深度学习相较传统机器学习模型,对算力有更高的要求。尤其是随着深度学习的飞速发展,模型体量也不断增长。于是,前几年,我们看到了芯片行业的百家争鸣和性能指标的快速提升。正当大家觉得算力问题已经得到较大程度的缓解时,大语言模型(LLM, Large language model)的

    2024年02月05日
    浏览(37)
  • Semantic Kernel 入门系列:?LLM降临的时代

    不论你是否关心,不可否认,AGI的时代即将到来了。 在这个突如其来的时代中,OpenAI的ChatGPT无疑处于浪潮之巅。而在ChatGPT背后,我们不能忽视的是LLM(Large Language Model)大型语言模型。 一夜之间所有的大厂商都在搞LLM,虽然很难有谁能和OpenAI相匹敌,但是随着AI领域的新摩

    2023年04月08日
    浏览(27)
  • AIGC时代的王者:微软

    从2022年到2023年这不到一年的时间,AI圈经历两大爆火事件:Stable diffusion和chatGPT,正式宣布AIGC时代的到来;在这背后有一家一直被认为科技创新性较弱的公司在默默的努力着,田字牌即微软. chatGPT爆火之前,微软一直为chatGPT母公司OpenAI提供超大的GPU集群,才造就了后台chat

    2024年02月15日
    浏览(23)
  • 【人工智能】LLM 大模型技术调研

    目录 LLM 大模型技术调研 一 LLM技术概览 二 关键技术点 2.1 Instruction Tuning 2.1.1 Instruction tuning Definition[6]/

    2024年02月08日
    浏览(46)
  • 【vite+vue3.2 项目性能优化实战】打包体积分析插件rollup-plugin-visualizer视图分析

    rollup-plugin-visualizer 是一个用于Rollup构建工具的插件,它可以生成可视化的构建报告,帮助开发者更好地了解构建过程中的文件大小、依赖关系等信息。 使用 rollup-plugin-visualizer 插件,可以在构建完成后生成一个交互式的HTML报告,其中包含了构建过程中的各种统计信息,如文

    2024年02月07日
    浏览(38)
  • AnalyticDB(ADB)+LLM:构建AIGC时代下企业专属Chatbot

    这个春天,最让人震感的科技产品莫过于ChatGPT的横空出世,通过大语言模型(LLM)让人们看到了生成式AI能实现到和人类语言高度相仿的语言表达能力,AI不再遥不可及而已经可以走进人类的工作和生活,这使得沉寂一段时间的AI领域重新焕发了能量,无数的从业者正趋之若鹜

    2024年02月09日
    浏览(32)
  • 100个人工智能 LLM 大模型基础术语

    下面是 LLM 大模型基础术语库的 100 个术语及其详细说明和数学公式: 1. 词汇表 (Vocabulary):包含所有可能出现的单词或子词的集合。 2. 词嵌入 (Word Embedding): 将每个单词映射到一个固定长度的向量,以便在模型中能够进行数学运算。 3. 神经网络 (Neural Network):由多个神经元组

    2024年02月06日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包