定制化需求|一个人工智能大模型应用的算力成本有多高?

这篇具有很好参考价值的文章主要介绍了定制化需求|一个人工智能大模型应用的算力成本有多高?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 人工智能的核心是算力。

定制化需求|一个人工智能大模型应用的算力成本有多高?,人工智能,chatgpt

01

需要多少预算?

最近在学习大模型ChatGPT、ChatGLM,研究结合企业的应用场景,解决一些业务难点、痛点,不免涉及本地化部署、微调、训练、知识库文档数据提取等等方面的问题。‍‍‍‍

同时还需要对硬件成本进行一个大致的估算:这个项目需要得用多少GPU?硬件采购的费用预算多少?‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

要对硬件资源成本进行估算,一方面决定于项目的技术方案:是否需要训练,还是只做微调训练,或者只做文档提取;一方面决定于硬件的选型:选哪家的GPU产品。

02

算力需求

算力需求主要分为两部分,包括训练算力和推理算力

目前来说对训练算力需求非常高,ChatGPT的公开数据显示它的整个训练算力消耗非常大,达到了3640PF-days。

PF-days = 1 PetaFLOP/s 的效率运行一天。PetaFLOP,是衡量计算机性能的一个重要单位,1 PetaFLOP等于每秒钟进行1千万亿次的数学运算,这种速度大约是运算速度最快计算机的8倍。

换成比较好理解的说法,假如每秒计算一千万亿次,需要计算3640天。

换算成英伟达A100芯片,它单卡算力相当于0.6P的算力,理想情况下总共需要大概6000张,在考虑互联损失的情况下,需要一万张A100作为算力基础。

在A100芯片(一张A100官方售价是1万美元,而且对中国限售。英伟达销售到国内的是规避限售的相应型号减配版。)10万人民币/张的情况下,算力的硬件投资规模达到10亿人民币。

训练算力相关设备主要是英伟达的A100和H100,推理算力主要是英伟达T4卡。

有数据显示,ChatGPT在运营过程中也需要相当大的开销。

根据国盛证券报告,以ChatGPT在1月的独立访客平均数1300万计算,其对应芯片需求为3万多片A100 GPU,大概需要的算力成本为8亿美元,每天的电费成本在5万美元左右。

在实际生产场景中,芯片的运算速度也不等于先进的算力,芯片速度和算力之间还有一个软件层:“高性能GPU分布式训练框架“,‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

算力问题之所以成为制约人工智能的瓶颈,是因为当前大模型进入万亿参数时代,单体服务器算力有限,需要将大量服务器通过高性能网络相连,打造大规模算力集群。

高性能计算存在“木桶效应”,一旦计算、存储、网络任一环节出现瓶颈,就会导致运算速度严重下降。

定制化需求|一个人工智能大模型应用的算力成本有多高?,人工智能,chatgpt

以腾讯云原生来架构模型训练的结构如下(腾讯云星星海自研服务器,搭载英伟达最新代次H800 GPU,服务器之间采用3.2T超高互联带宽):‍‍‍‍‍‍‍‍‍

定制化需求|一个人工智能大模型应用的算力成本有多高?,人工智能,chatgpt

一共四层架构:最底层是算力硬件资源;上一层是高性能的计算集群,主要起到灵活调度和计算资源分配的作用;中间一层是深度学习加速,作用提升计算的利用率,最上面才是机器学习,模型服务。

之前提到的国产大模型 ChatGLM2-6B 初体验,是使用华为的AI框架昇思MindSpore训练的。据官方信息透露,最开始130B(1300亿参数)大小数据集的训练过程中,华为框架团队一同协同改进框架,一共用了三个月。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

这也是为什么大模型迭代升级,一项重要的改进就是提升性能:性能提升571%,32K超长上下文,推理速度提升42%,允许商用,国产开源大模型推出了二代 ChatGLM2-6B,提升性能就是省钱。

03

有低成本的方案吗?‍‍

直接训练模型投入大,周期长,只有大厂玩家才能有实力介入。如果只是直接使用例如ChatGPT,ChatGLM这类预训练模型,进行微调,或者是知识库文档数据提取,只消耗推理算力,投入成本就要小很多。‍‍‍‍‍‍‍‍‍

参考海外最新研究《The Economics of Large Language Models》,可以有如下估计: 每个 token(1000 token 约等于 750 个单词)的训练成本通常约为 6N,而推理 成本约为 2N,其中 N 是 LLM (大语言模型)的参数数量。

也就是说推理成本大约相当于训练成本的三分之一。‍‍

官方资料显示,ChatGLM2-6B 模型能运行起来的最低硬件要求:建议英伟达Tesla 显卡系列,NVIDIA A100 GPU,15G显存, 一般的 3090 GPU也差不多了。单这仅仅是模型进行正常推理的算力最低要求,并没有考虑使用用户数量。‍

要计算一个用户向ChatGPT、ChatGLM 这类大模型提问并获得回复所需的算力,我们需要考虑以下因素:模型规模(参数数量)、输入文本长度(问题长度)、输出文本长度(回复长度)、模型的计算复杂性

其他3个要素好理解,模型的计算复杂性是什么呢?模型计算复杂性指的是模型本身的复杂程度,它与模型维度(D)和模型层数(N)成正比。

一个问题需要消耗的算力,可以用以下公式进行粗略估算,FLOPs 浮点运算次数,用来衡量执行某个任务所需的计算量。‍

FLOPs ≈ L * D * N。

其中,L是用户问题的输入长度与模型回答的输出长度之和。

假设一个用户问ChatGPT一个50个字的问题,ChatGPT给出了1000字的回复。完成这样一次交互需要消耗的算力:

FLOPs ≈ L * D * N ≈ 1050 * 1280 * 96 ≈ 128,448,000

因此,当输入问题长度为50个词,输出回复长度为1000个词时,处理一个用户向ChatGPT提问并获得回复所需的算力约为128.45百万次浮点运算(FLOPs)。

还有一个细节问题:如果大模型回答不同类型的问题,只要问题长度和答案长度都一样,其消耗的算力都一样么?比如同样的问题和答案长度,写小说和做算术题这两类任务消耗的算力是否一样。

在理论上,只要输入问题长度和输出答案长度相同,处理不同类型问题所需的算力应该是相似的。

这是因为,无论问题类型如何,Transformer模型的计算复杂性主要取决于输入序列长度(L)、模型维度(D)和模型层数(N)。

不过,在实际应用中,根据问题的难度和特定上下文,某些任务可能需要更多的计算步骤来生成更准确的答案。

例如,在生成小说文本时,模型可能需要花费更多的计算资源来保持句子的连贯性、情感和文学风格。而在解决算术问题时,模型可能需要更多的计算资源来处理数学逻辑。

不过,从整体来看,两者之间的计算复杂性差异相对较小。

因此,在问题长度和答案长度相同的情况下,不同类型的任务(如写小说和解决算术问题)消耗的算力可能存在一定差异,但总体上应该相差不大。

解决了估算计算量的问题,我们来算算支持的硬件资源需要多少。‍‍‍‍‍‍

以英伟达A100 GPU 为例,每个GPU在 FP32 单精度效能(训练算力)具有19.5 TFLOPs,INT8 整数效能(推理算力)具有624TPS 的性能。假设需要在1秒内完成上面那个用户50字的问题请求(128.45 * 10^6FLOPs)。粗略估算所需的 GPU数量

GPU = FLOPs / (624 * 10^12 FLOPs/s) ≈ 128.45 * 10^6 / (624 * 10^12)

≈ 2.058 * 10^-7

假设使用系统的用户数量为1000人,每个人的每个请求在3秒内完成,那么一小时内的请求总数量为(3600/3) * 1000 = 1.2 * 10^6 次。‍‍‍

理论上,这样的系统用户规模,请求频次,推理算力需要支持的 GPU 数量:‍‍‍‍‍‍‍‍

GPU ≈ 2.058 * 10^-7 * 1.2 * 10^6 = 0.25。

‍‍‍‍‍‍

再考虑训练模型等中间层利用率,集群协调等算力上的消耗,假设这部分损耗20%算力,GPU 数量大约为0.387。‍‍‍‍‍‍‍‍‍‍‍

参考前面 A100的10万人民币的价格,大概是3.87万。‍‍‍‍‍‍‍‍‍‍

如果是国内项目落地,同时考虑 GPU 的硬件厂家的选型。目前市场上比较认可的是寒武纪,2021年发布的思元370,是训练和推理一体的产品,24TFLPOS(FP32)训练算力和256TOPS (INT8)推理算力‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

同时百度也在 2021 年发布昆仑芯二代产品,搭载GDDR6高性显存,支持256TOPS(INT8)算力,和V100性能差不多,可以做训练和推理。不过都在百度云服务器上部署,多用于自家产品。

同样上面的系统需求:1000用户,每个请求3秒内完成,使用寒武纪的思元370,需要的GPU数量:‍‍‍‍‍‍‍‍‍‍‍‍‍

GPU ≈ 0.387 * 624 / 256 ≈ 0.943 ,接近一块GPU的数量,大约三倍左右。思元370目前市场报价 1.46万。

不过实际应用中,影响算力的因素可以说复杂得多,以上分析只是建立了一个简单的计算模型。仅限于用于项目立项阶段的费用评估,可以适当增加一些中间层级的消耗权重,给方案预算留出余地。‍‍‍‍‍‍‍‍‍‍‍‍‍

参考资料:

https://xueqiu.com/2524803655/246572538

https://www.qbitai.com/2023/04/46615.html

https://www.stcn.com/article/detail/841412.html

https://baijiahao.baidu.com/s?id=1763233924302503556

http://www.01ur.com/?m=home&c=View&a=index&aid=581

http://kuanfans.com/product/djsb-copy/1184.html

https://sunyan.substack.com/p/the-economics-of-large-language-models

往期热门文章推荐:

ChatLaw:北大团队智能法律助手,国产大模型成功应用普惠法律服务

为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)

终于部署成功!GPU 云环境搭建 ChatGLM2-6B 坎坷路

拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。文章来源地址https://www.toymoban.com/news/detail-752229.html

到了这里,关于定制化需求|一个人工智能大模型应用的算力成本有多高?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【人工智能】大模型基础概念、核心技术、应用场景和未来发展

      目录 一、大模型概述 二、大模型的发展历程 三、大模型的核心技术

    2024年02月08日
    浏览(26)
  • SWE-Agent 这是针对本地模型的新人工智能一个开源项目

    完全自主的编码代理,可以解决 GitHub 问题。 它在编码基准测试中的得分几乎与 Devin 一样高。 这是完整的评论和教程。 SWE-agent 将 LM(例如 GPT-4)转变为软件工程代理,可以修复真实 GitHub 存储库中的错误和问题。 🎉 在完整的 SWE-bench 测试集上,SWE-agent 修复了 12.29% 的问题

    2024年04月26日
    浏览(20)
  • 人工智能(Pytorch)搭建模型5-注意力机制模型的构建与GRU模型融合应用

    大家好,我是微学AI,今天给大家介绍一下人工智能(Pytorch)搭建模型5-注意力机制模型的构建与GRU模型融合应用。注意力机制是一种神经网络模型,在序列到序列的任务中,可以帮助解决输入序列较长时难以获取全局信息的问题。该模型通过对输入序列不同部分赋予不同的 权

    2024年02月12日
    浏览(24)
  • 【深入探讨人工智能】AI大模型在自动驾驶中的应用

    当今, AI大模型 是一个火热的。随着人工智能的迅猛发展,AI大模型在各个领域展现出了巨大的潜力和应用价值。在自动驾驶领域,AI大模型的应用驱动自动驾驶算法具备更强的泛化能力。 那么 AI大模型 为自动驾驶赋能了什么?它的未来发展前景又是怎样? 本文将以

    2024年02月08日
    浏览(30)
  • 第二十五章:AI大模型在人工智能助手领域的应用

    人工智能助手(AI Assistant)是一种通过自然语言交互与用户进行对话的软件系统,旨在提供有针对性的信息和服务。AI助手通常使用自然语言处理(NLP)和机器学习技术来理解用户的需求,并提供相应的回答和建议。随着AI技术的发展,AI助手已经成为了人们日常生活中不可或缺的一

    2024年02月21日
    浏览(28)
  • (十)人工智能应用--深度学习原理与实战--模型的保存与加载使用

    目的:将训练好的模型保存为文件,下次使用时直接加载即可,不必重复建模训练。 神经网络模型训练好之后,可以保存为文件以持久存储,这样下次使用时就不重新建模训练,直接加载就可以。TensorfLow提供了灵活的模型保存方案,既可以同时保存网络结构和权重(即保存全模

    2024年02月13日
    浏览(27)
  • 在OK3588板卡上部署模型实现人工智能OCR应用(十一)

    我们依旧采用FastDeploy来部署应用深度学习模型到OK3588板卡上 进入主机Ubuntu的虚拟环境 conda activate ok3588 安装rknn-toolkit2(该工具不能在OK3588板卡上完成模型转换) git clone https://github.com/rockchip-linux/rknn-toolkit2 cd rknn-toolkit2 注意这里需要1.4的版本 git checkout v1.4.0 -f cd packages pip in

    2024年02月05日
    浏览(18)
  • 人工智能(pytorch)搭建模型8-利用pytorch搭建一个BiLSTM+CRF模型,实现简单的命名实体识别

    大家好,我是微学AI,今天给大家介绍一下人工智能(pytorch)搭建模型8-利用pytorch搭建一个BiLSTM+CRF模型,实现简单的命名实体识别,BiLSTM+CRF 模型是一种常用的序列标注算法,可用于词性标注、分词、命名实体识别等任务。本文利用pytorch搭建一个BiLSTM+CRF模型,并给出数据样例,

    2024年02月09日
    浏览(25)
  • 【深入探索AI原生应用】文心大模型4.0开启人工智能之门

    10月17日,以“生成未来(PROMPT THE WORLD)”为主题的Baidu World 2023在北京首钢园举办。 李彦宏在百度世界2023上表示: “ 大模型带来的智能涌现,这是我们开发AI原生应用的基础。” 。当天,李彦宏以 《手把手教你做AI原生应用》 为主题发表演讲,发布 文心大模型4.0版本 ,并

    2024年02月08日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包