微软1位LLM的时代，性能惊人却体积缩水16倍-Toy模板网

这篇具有很好参考价值的文章主要介绍了微软1位LLM的时代，性能惊人却体积缩水16倍。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

微软1位LLM的时代，性能惊人却体积缩水16倍,人工智能

说到人工智能（AI）在市场上的表现，真相是铁一般的事实：虽然AI让市场活力四射，但它的价值转化却远远跟不上，因为真正利用AI生产商品和服务的公司不到4%。

更糟糕的是，尽管一些大公司确实开始拥抱AI，但天价的成本阻碍了小公司的跟进，讽刺地将一项本意在于民主化复杂任务、促进竞争力的技术，变成了一台巨大的不平等制造机。

然而，情况可能很快就会改变。微软悄悄发布了一款1.58位的大型语言模型（LLM），其性能与16位的对应物相匹配，同时在成本和速度上都便宜和快了许多倍。

微软称之为1位LLM的时代，你绝对会爱上这个进展的每一秒。

这个见解和其他一些见解大多之前在我的每周简报《科技绿洲》中分享过。

如果你想及时了解AI的疯狂世界，同时感受到被鼓舞去采取行动的冲动，或者至少为我们面前的未来做好准备，那么这就是为你准备的。

🏝请在下面订阅🏝

《科技绿洲》
在AI领域保持领先的简报
thetechoasis.beehiiv.com

没有金钱，就没有派对
尽管AI在研究层面取得了令人印象深刻的成果，但它正遭受着经济、环境影响和价值缺失等多种疾病的侵袭，这些因素阻碍了它成为业界预测的那样。

数字不对劲
即便是现在，企业对AI的采用率也未达到两位数，这一点由美国国家经济研究局的最近一项研究证实，并得到了麻省理工学院的回声。

微软1位LLM的时代，性能惊人却体积缩水16倍,人工智能

但研究显示了一个更令人担忧的迹象，即大公司和其他公司之间存在明显的不平衡。

更糟的是，这种不均衡不仅仅是关于规模，还涉及行业乃至地理位置。

多伦多大学的克里斯蒂娜·麦克埃尔兰总结得最好：

“数字时代已经到来，但到达得不均匀。”

但这远非唯一的问题。对环境的影响也是可怕的。

如果我们考虑到AI行业的碳足迹已经占全球排放量的约1%，并且认识到未来几年AI工作负载将大规模增长，那么我们必须一致认为我们面临着一个问题。

简单地说，除非我们找到一种使AI成为一项高效技术的方式，否则其影响和价值创造将限于大公司，而我们其他人只能构建一些关于德州烧烤的莎士比亚风格的有趣玩具。

然而，由于生成式AI带来的范式转变，即“一对多”的时代，价值创造的机会仍然非常巨大。

基础模型范式

解释AI今天成功的最大原因，莫过于基础模型（FMs），这些模型能执行广泛的不同下游任务。

通过创建巨大的基础AI模型，我们获得了一系列好处，主要是泛化，这使得AI成为一项成功率更高的技术——在AI之前，根据Gartner的说法，失败率高达90%——并且回报更具吸引力。

最终，AI不需要训练就能学习，因为你只需要通过实时提供必要的（通常是私有的）数据来将模型植入每个用例，这个过程正式称为提示工程。

但我们最大的成功也是我们最大的负担。

资金的束缚

前沿AI模型需要运行非常昂贵的硬件，GPU，由于它们的并行化能力。

尽管GPU的基础性不言而喻，但LLM和这些硬件之间的关系远非理想。

首先，大多数模型今天的大小不适合单个GPU。我们当前最好的GPU，如英伟达的H100或英特尔的Gaudi 2，分别只有80GB和96GB的高带宽内存（HBM）。

听起来可能很多，但我们谈论的是像ChatGPT或Gemini Ultra这样的极端案例，可能达到TeraByte大小范围的模型。

因此，我们必须使用分布式计算方法，如FSDP，通过将模型的层分组到单个或一组GPU分配的单元中来“拆分”模型。

我们可以将模型存储在Flash或HDD中吗？

理论上，我们不能。整个模型需要为每一个预测运行，这意味着权重需要对GPU核心可访问，否则检索过程会花费太长时间，延迟将难以忍受。

苹果正在推动的一条有趣的研究线是“Flash LLMs”，通过包含一个预测器，对于每个输入数据，预测LLM的哪些部分需要在RAM内存中，允许将大型模型适配到像iPhone这样的硬件上。

FSDP部分解决了分布问题，但增加了通信开销，因为GPU需要共享它们的计算，无论是训练还是推理。如果事情还不够复杂，GPU的排列也很重要。

目前，最令人兴奋的方法是环形注意力，其中GPU设置在一个环上，以重叠个别GPU的计算和GPU之间的通信开销，以便全局预测时间不受分布式工作负载的限制。

与此同时，像Predibase这样的公司正在提供简单的无服务器框架，你可以将多个模型存储在一个GPU中，大大降低成本，其他组织如Groq甚至建议我们根本不应该使用GPU进行推理工作负载，而是提出了具有疯狂速度的语言处理单元（LPU）。

然而，无论采取哪种方法，关键问题仍然存在，LLM比理想情况要大得多，所有先前的创新都集中在处理大型模型尺寸的问题上。

因此，考虑到内存需求是主要瓶颈，如今一个非常流行的解决方案是对模型进行量化。

而在这里，微软的1位LLM终于登场了。

1.58位可能改变世界

首先，什么是量化？

精度问题

量化是减少模型参数（权重）存储精度的过程，以减小其大小并节省内存，正如我们之前讨论的，这是这些模型的主要瓶颈。

大多数当前的LLM使用16位或2字节精度训练它们的模型。换句话说，模型中的每个权重正好占用2字节的内存。

必须说，模型的某些参数，如训练期间使用的优化器状态，以全精度（4字节）存储，但大多数以2字节存储。

有不同的方法，但概念始终相同，将权重的值压缩到更小的位大小。

一个非常常见的方法是将16位权重转换为4位值。在这一点上，真正的影响可能看起来不清楚，但请耐心看下面的例子。

如果我们取一个已经训练好的50亿参数的LLM，按今天的标准来看是一个相当小的模型，在2字节精度下，我们的模型重100 GB。

为简化例子，我假设一个已经针对短序列训练好的模型，以便KV缓存，一个对长序列有巨大影响的内存需求，可以忽略。

因此，你自动需要至少两个英伟达H100 GPU才能存储模型。

但如果你将权重量化到4位，你基本上将内存需求除以4，所以模型突然变成了“只有”25GB，完美地适合单个GPU。但如果这么神奇，为什么不总是这样做呢？

训练后的权衡
如今，大多数量化程序都是在训练后进行的。也就是说，以混合或全精度（2或4字节）训练模型，然后对模型进行量化。这个过程本身就是一个问题，因为这无可避免地会对性能产生重大影响。

想象一下，你用一个巨大的网球拍训练了很长时间，突然，在比赛开始前，他们给了你一个小得多的。自然，你会很难击中球。

嗯，用训练后量化，我们对模型做了同样的事情，基本上。

但如果我们从头开始训练模型时就对其进行量化呢？

这正是微软所推动的，但采取了极端措施。

AI的未来？
简单来说，微软的论文提出了一种激进的方法，将每个权重的内存分配从16位减少到1.58位，大约减少了16倍的内存需求。换句话说，线性层中的所有权重将有一个值“1”、“-1”或“0”。他们只关注前馈权重，同时保持标准激活和注意力为8位，因为大部分的计算和内存需求累积在前馈层上，而不是在注意力上。但关于微软方法的关键点是，它是“量化意识到的”，意味着他们在训练模型的同时从头开始应用量化。这样，你不是在训练一个特定精度的模型，然后之后剪辑它的值，而是从头开始以量化形式训练模型。另一个值得注意的元素是，通过将这些权重设为+/- 1或0，你基本上避免了矩阵乘法。

但为什么这么重要呢？

微软1位LLM的时代，性能惊人却体积缩水16倍,人工智能

由于乘以1或-1归结为对另一个数字应用符号函数，而0从等式中消除了那个数字，你的矩阵乘法变成了矩阵加法（如上图所示），大大减少了计算需求。

与我们可能期望的相反，这种妥协并没有对性能产生影响，恰恰相反。

速度提高了，但质量并没有下降与类似重量计数的模型相比，该模型不仅表现良好，而且在大多数基准测试中胜过了其对手。

微软1位LLM的时代，性能惊人却体积缩水16倍,人工智能

研究人员随后声称，这种方法的主要好处适用于任何其他大小，并且随着规模的增加变得更加明显，意味着：

“13B BitNet b1.58在延迟、内存使用和能源消耗方面比3B FP16 LLM更高效。”
“30B BitNet b1.58在延迟、内存使用和能源消耗方面比7B FP16 LLM更高效。”
“70B BitNet b1.58在延迟、内存使用和能源消耗方面比13B FP16 LLM更高效。”
正如你所看到的，量化意识到的训练发展了自己的规模定律，因为模型越大，影响越大。

而且在相同大小的比较中，量化的LLM允许11倍更大的批量大小（你可以发送给模型的单个序列数量）以及每秒生成的令牌数量增加9倍。

但这一切意味着什么呢？

简而言之，我们可能已经找到了一种更高效地训练前沿AI模型的方法，同时不影响性能。

如果是这样，我们很快就可能看到1位LLM成为常态，而那些需要不可克服的支出和巨大数据中心的工作负载最终可能在消费者硬件上运行，甚至在你的智能手机上运行。

例如，我们可能在你的iPhone上运行超过+1000亿参数的模型，而这个数字对于配备了必要GPU的最先进的笔记本电脑来说（自然，这已经是大多数高端消费者硬件的情况），可能增长到+300范围。

但我们甚至可以更进一步。

很快，你的数字产品，比如你的智能手机，可能会融入多个不同的LLM并行运行，每个都专注于其下游任务，这可能使LLM在我们生活中变得更加无处不在。

一个LLM处理你的电子邮件，一个LLM处理你的通知，一个LLM编辑你的照片……你说的。

如果这不代表AI价值创造的本质，那我也不知道该怎么告诉你了。

AI的决定性一年
在年初，我预测2024年将更多关注这类创新，而不是“GPT-27”，而这类研究指向了这个方向。

考虑到我们尚未开发出工具来自信地控制和对齐目前在顶级AI实验室开发的超级模型，让我们希望这是真的。文章来源地址https://www.toymoban.com/news/detail-843275.html

到了这里，关于微软1位LLM的时代，性能惊人却体积缩水16倍的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！