浪潮信息Owen ZHU:大模型百花齐放,算力效率决定速度

这篇具有很好参考价值的文章主要介绍了浪潮信息Owen ZHU:大模型百花齐放,算力效率决定速度。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

与狭义的人工智能相比,通用人工智能通过跨领域、跨学科、跨任务和跨模态的大模型,能够满足更广泛的场景需求、实现更高程度的逻辑理解能力与使用工具能力。2023年,随着 LLM 大规模语言模型技术的不断突破,大模型为探索更高阶的通用人工智能带来了新的曙光。通用人工智能进入了快速发展期,在中国,大模型已经呈现出百花齐放的态势,各种大模型层出不穷。

要想在“百模争秀”的时代占得先机,AI开发团队需要着力化解算力、算法、数据层面的巨大挑战,而开发效率和训练速度是保障大模型市场竞争力的核心关键因素,也是未来的核心发力点近日,浪潮信息人工智能与高性能应用软件部 AI 架构师Owen ZHU参与首届由CSDN、《新程序员》联合主办的NPCon大会,发表重要技术演讲,分享面向新一轮AIGC产业革命,AI大模型的算力系统解决之道,并强调算力、算法、数据和系统架构等多个方面的综合优化对大模型训练到了至关重要的作用。

以下为Owen ZHU在NPCon大会的演讲实录整理:

“百模争秀”时代的算力瓶颈

大模型研发的核心技术是由预训练与Alignment组成的,第一部分就是预训练,需要用大量的数据使模型收敛速度更快、性能更好。第二部分则是Alignment,Alignment不完全等于强化学习,其通过使用多种方式/策略优化模型输出,让AI在和人的交流反馈中学会如何沟通表达,这两部分是提升大模型质量的核心要素。

目前来看,模型基础能力取决于数据、模型参数量和算力。模型参数量越大、投入的训练数据越大,模型泛化能力越强。由于资源限制,在两者不可兼得的时候,应该如何进行取舍呢?OpenAI的研究结论认为,与增加数据量相比,先增大模型参数量受益则会更好,用一千亿的模型训练两千亿的Token和两千亿模型训练一千亿的Token,后者的模型性能会更高。

由此可见,参数量是衡量模型能力的一个重要指标,当模型参数量增长超过一定阈值时,模型能力表现出跃迁式的提升,表现出来语言理解能力、生成能力、逻辑推理能力等能力的显著提升,这也就是我们所说的模型的涌现能力。

模型规模多大能产生涌现能力呢?现在来看,百亿参数是模型具备涌现能力的门槛,千亿参数的模型具备较好的涌现能力。但这并不意味着模型规模就要上升到万亿规模级别的竞争,因为现有大模型并没有得到充分训练,如GPT-3的每个参数基本上只训练了1-2个Token,DeepMind的研究表明,如果把一个大模型训练充分,需要把每个参数量训练20个Token。所以,当前的很多千亿规模的大模型还需要用多10倍的数据进行训练,模型性能才能达到比较好的水平。

无论是提高模型参数量还是提升数据规模,算力依旧是大模型能力提升的核心驱动力:需要用“足够大”的算力,去支撑起“足够精准”模型泛化能力。当前大模型训练的算力当量还在进一步增大,从GPT-3到GPT-4算力当量增长了68倍。算力当量越大,交叉熵越小,模型能力越强。随着训练的token数、模型参数、计算量的增加,语言模型的loss在平滑下降,这就意味着大语言模型的精度可以随着计算量、参数规模、token数扩展进一步提升。

浪潮信息Owen ZHU:大模型百花齐放,算力效率决定速度,人工智能,AIGC

欲炼大模型,先利其器

大模型能力来源于大量工程实践经验,预训练的工程挑战巨大,这表现在如下几个方面:首先,AI大模型的演化对于集群的并行运算效率、片上存储、带宽、低延时的访存等也都提出了较高的需求,万卡AI平台的规划建设、性能调优、算力调度都是很难解决的难题;其次,大规模训练普遍存在硬件故障、梯度爆炸等小规模训练不会遇到的问题;再次,工程实践方面的缺乏导致企业难以在模型质量上实现快速提升。

作为最早布局大模型的企业之一,浪潮信息在业界率先推出了中文AI巨量模型“源1.0”,参数规模高达2457亿。千亿参数规模的大模型创新实践,使得浪潮信息在大模型领域积累了实战技术经验并拥有专业的研发团队,为业界提供AI算力系统参考设计。在算力效率层面,针对大模型训练中存在计算模式复杂,算力集群性能较低的情况,源1.0在大规模分布式训练中采用了张量并行、流水线并行和数据并行的三维并行策略,训练耗时约15天,共计训练了180 billion token,并将模型最后的loss值收敛至1.73,显著低于GPT-3等业界其他语言模型。首次提出面向效率和精度优化的大模型结构协同设计方法,围绕深度学习框架、训练集群IO、通信开展了深入优化,在仅采用2x200G互联的情况下,源1.0的算力效率达到45%,算力效率世界领先。在集群高速互联层面,基于原生RDMA实现整个集群的全线速组网,并对网络拓扑进行优化,可以有效消除混合计算的计算瓶颈,确保集群在大模型训练时始终处于最佳状态。

为大模型良好生态发展寻找最优解

当前,中国和业界先进水平大模型的算力差距依然较大,从算力当量来看,GPT-4的算力当量已经达到了248,842PD,而国内大多数主流的大模型算力大量仅为数千PD,差距高达近百倍。

同时,中国和业界先进水平大模型在算法、数据方面也存在巨大差距。在算法方面,虽然开源为国内大模型发展带来了弯道超车的良机,但LLaMA等开源大模型相比GPT4等顶级水平自研模型的性能,开源模型的能力存在“天花板”。

在数据方面,中文数据集和英文数据集相比较,在规模、质量上均存在显著差距,相较于动辄数千亿单词量级的英文数据,中文大模型的数据量级仅为百亿左右,而且开源程度较低,封闭程度较高。

开发大模型、发展通用人工智能是一项非常复杂的系统工程,我们亟需从系统层面为未来大模型的良好生态发展寻找最优解。从实战中走来,通过构建高效稳定的智算系统,加速模型开发效率提升。

日前,浪潮信息大模型智算软件栈OGAI(Open GenAI Infra)——“元脑生智“已正式发布。浪潮信息正通过“工具化、系统化、全链条”的全栈赋能能力,让炼大模型省时、省力,让大模型更快、更稳、更智能,助力百模真正实现“竞速AIGC”。

浪潮信息Owen ZHU:大模型百花齐放,算力效率决定速度,人工智能,AIGC文章来源地址https://www.toymoban.com/news/detail-694139.html

到了这里,关于浪潮信息Owen ZHU:大模型百花齐放,算力效率决定速度的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 2023 年前端 UI 组件库概述,百花齐放!

    UI组件库提供了各种常见的 UI 元素,比如按钮、输入框、菜单等,只需要调用相应的组件并按照需求进行配置,就能够快速构建出一个功能完善的 UI。 虽然市面上有许多不同的UI组件库可供选择,但在2023年底也并没有出现一两个明确的解决方案能够适用于所有情况。因为不同

    2024年02月08日
    浏览(46)
  • 浪潮信息云峦服务器操作系统KeyarchOS体验与实践

    大家好我是网络豆,一名云计算运维人员,本文将会带大家体验一下浪潮信息服务器操作系统云峦KeyarchOS。看看浪潮信息服务器操作系统云峦KeyarchOS的优势与实践操作如何。 KeyarchOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统,支持x86、ARM等

    2024年02月05日
    浏览(46)
  • 使用X2Keyarch迁移CentOS至浪潮信息KeyarchOS体验

    浪潮信息研发的云峦操作系统KeyarchOS(简称KOS), 是一款面向政企、金融等企业级用户的 Linux 服务器操作系统,其稳定性、安全性、兼容性和性能等核心能力均已得到充分验证。历经近10年自主研发历史,支持x86、ARM、Power主流架构处理器,面向行业提供服务器操作系统解决方案

    2024年02月05日
    浏览(45)
  • 【iVX】在百花齐放的低代码平台中独领风骚

    💂 作者简介: THUNDER王,一名热爱财税和SAP ABAP编程以及热爱分享的博主。目前于江西师范大学本科在读,同时任汉硕云(广东)科技有限公司ABAP开发顾问。在学习工作中,我通常使用偏后端的开发语言ABAP,SQL进行任务的完成,对SAP企业管理系统,SAP ABAP开发和数据库具有较

    2024年02月11日
    浏览(52)
  • 到广阔的边缘市场去,浪潮信息首次发布全栈边缘计算软硬件新品

    出品 | CSDN 云计算 智慧时代,一切皆计算,早已不再是一句口号。据国际研究机构 IDC 数据显示,2023 年超过 50%的企业新增 IT 基础设施会部署在边缘,而 Gartner 研究显示,到 2025 年,超过 75%的数据生成和数据处理会在边缘进行。 2023浪潮信息边缘计算大会上,浪潮信息边缘计

    2024年02月07日
    浏览(47)
  • 浪潮信息赵帅:多元算力时代 开源开放的OpenBMC成为服务器管理优先解

    “ 多元算力时代下,大规模的异构服务器设备面临多种处理器架构、多种设备协议、不同管理芯片兼容的系统化设计挑战,管理固件也迎来新的变革。开源开放的OpenBMC,以创新的分层解耦软件架构,兼容不同处理器架构、算力平台和管理芯片,为多元算力基础设施提供了开

    2024年02月12日
    浏览(43)
  • 浪潮信息带头编制服务器液冷冷板标准为行业提供规范化和标准化的服务

    这些年,浪潮信息一直专注于推动技术创新及产业升级,瞄准液冷产业化发展的新趋势,浪潮信息持续推进液冷标准的建立与应用推广,并已经取得了良好的成效。 2023年2月28日,由浪潮信息牵头制定的《服务器及存储用液冷部件技术规范第1部分:冷板》团体标准在中国电子

    2024年02月11日
    浏览(93)
  • 浪潮信息龙蜥联合实验室领衔成立 Serverless SIG 打造标准化开源解决方案

    近日, 浪潮信息龙蜥联合实验室 在龙蜥社区领衔成立 Serverless SIG(服务器无感知计算 SIG),并举行了首届 Serverless SIG MeetUp,活动由浪潮信息龙蜥联合实验室主办,来自浪潮信息、天津大学、阿里云、Intel、中国联通等多位资深专家, 分享了不同业务场景下的 Serverless 案例实

    2023年04月26日
    浏览(54)
  • 浪潮信息自研服务器操作系与万里安全数据库软件完美兼容 功能及性能俱佳

    日前,由浪潮信息自主研发的服务器操作系统Inspur KOS V5与万里安全数据库软件GreatDB V1.0、V5.1完成兼容性互认证测试,两款产品均展现出了优异的兼容性能及高效的运行效果,在用户数据安全、产品可控等数字化转型和可靠性需求上皆能为客户提供更全面的解决方案。 构建优

    2024年02月10日
    浏览(41)
  • 浪潮信息Inspur KOS性能及稳定性位列前茅 与万里安全数据库GreatDB高效兼容

    为满足企业在数据安全、产品可控等数字化转型中的多样化需求,浪潮信息正基于技术与应用的深厚积累,持续优化创新产品及服务能力,助力企业在数智化时代下构筑黑心竞争力。日前,浪潮信息打造的Inspur KOS V5与万里安全数据库软件GreatDB V1.0、V5.1完成兼容性互认证测试

    2024年02月12日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包