AIGC 爆火,浪潮信息要做大模型的数据存储大底座

这篇具有很好参考价值的文章主要介绍了AIGC 爆火,浪潮信息要做大模型的数据存储大底座。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

AIGC 在 2023 年爆火,各类大模型层出不穷,参数动辄达到千亿数量级。这些背后,数据的类型和形式也走向复杂多样。例如大模型会采用到我们真实物理世界中的文字、视觉、音频、3D、雷达、多谱等复杂多样的不同模态信号和数据,数据则又存在结构化、半结构化、非结构化等多种形式。

云计算之后,AIGC 让数据存储面临新的挑战

数据存储需要从规模、类型、协议、性能等等方面去满足大模型运行效率,也因此,数据存储在云计算之后,再次面临了新的技术挑战。例如:

一、异构数据的融合

生成式 AI 训练模型的数据呈现来源多、格式多的多源异构现状,传统存储面向单一数据类型设计,需要以搬移数据的方式实现多协议访问,存储成为应用平台的关键瓶颈;

AIGC 爆火,浪潮信息要做大模型的数据存储大底座,存储,AI,AIGC,浪潮信息,数据存储,大模型 

二、持续的低延迟与高带宽

模型训练过程中,频繁地从数据集取 Token,每个 Token 一般 4 字节,实时高并发小 IO 性能需要极低的延迟;存储模型 Checkpoint 时,为 Checkpoint 数据可快速写入,需要高带宽;

三、EB 级大容量存储需求

越多的数据投喂结果越精准的工作原理,决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。

AIGC 爆火,浪潮信息要做大模型的数据存储大底座,存储,AI,AIGC,浪潮信息,数据存储,大模型 

浪潮信息发布 AIGC 存储方案——AS13000融合存储系统

提到存储,浪潮信息近年在数据存储技术领域一直深耕并取得了亮眼的成绩。据分析机构 Gartner 2022 年报告显示,浪潮信息以存储装机容量占比 11% 已经进入全球前三名,另据 IDC2022 年四季度报告显示,浪潮在分布式文件存储市场销量第一,每 5 台文件存储中 1 台来自浪潮信息。

在 AI 大模型的研发上,浪潮信息早在 2021 年就发布了中文语言大模型“源 1.0”,对于 AI 与数据存储的积累之上,近日浪潮信息正式发布面向生成式 AI 的存储解决方案。方案基于浪潮 AS13000 融合存储系统,可以支撑 AIGC 产业上中下游业务应用,并针对不同业务阶段的数据存储需求,提供热温冷冰四级存储,实现数据在各级存储间自动流转。用高性能节点形态来满足数据训练、数据推理两个阶段的高带宽、低延时、高并行读写性能存储需求,用大容量节点形态来满足数据采集、数据准备、数据归档三个阶段的海量多元数据存储需求,方案具备极致融合、极致性能、极致节能三大能力,以及热、温、冷、冰四级数据全生命周期存储管理能力,助力生成式 AI 突破海量数据存力瓶颈,加速释放数据的价值。

AIGC 爆火,浪潮信息要做大模型的数据存储大底座,存储,AI,AIGC,浪潮信息,数据存储,大模型

 

详细来说,针对 AI 与大模型对于数据的各类需求,浪潮 AS13000 融合存储系统从多模态数据融合、数据存储性能、绿色数据中心设计方案、数据全生命周期四个方面,进行了设计与研发。

一、极致融合应对 AIGC 海量多源异构数据存储

为了应对不同模态的多样性需求,浪潮信息提出“协议互通、数据融合”设计理念,一个集群内支持多个存储池,一个存储池内支持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端不同业务场景同时以文件、对象、大数据、视频四种存储协议进行并行访问。用一套存储实现支持多模态场景应用,免除了数据跨应用时的复制,实现真正意义上非结构化数据的协议互访互通,让数据融合。

二、极致性能,应对 AIGC 大模型训练。

AIGC 场景数据类型多样化,文件大小不一、数量多,且读写频繁,对存储系统的百 GB 级高带宽、百万级 IOPS 需求成了常态。浪潮信息在软件方面,通过数控分离架构减少东西向数据量的转发,通过 GDS、RMDA 技术缩短 I/O 路径,通过 SPDK、缓存零拷贝技术减少 I/O 路径上的数据拷贝,以及基于自研 NVMe SSD 开发的盘控协同技术,减少 I/O 访问 SSD 盘的次数,使存储性能得到进一步释放。在硬件方面,优化 IO 路径通道,均衡 IO 路径,最大化发挥硬件性能,全闪单节点带宽超过 50GB/s,IOPS 超过 50 万;此外,创新性地引入双控全闪节点,带宽超 100GB/s,IOPS 超 100 万,真正使系统具备千万级 IOPS、EB 级带宽,充分满足 AIGC 场景对存储系统的苛刻要求。

三、极致节能,打造绿色数据中心。

浪潮信息近期最新发布了 G7 硬件平台,存储专用的液冷服务器涵盖性能型和容量型,且均采用模块化冷板组件设计模式。在系统方案层面,浪潮信息具有风液式、液液式等完善的端到端解决方案,能够为用户全方位打造液冷数据中心交钥匙工程,并且完成了业界首次液冷整机柜批量交付,实现 PUE<1.1。

四、端到端数据全生命周期管理,实现 AIGC 底层数据智能治理。

除了三大“极致”能力之外,得益于“资源互通、管理融合”的设计理念,浪潮信息生成式 AI 存储方案基于闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源,通过资源互通实现数据全生命周期管理。基于数据的热度识别,自动释放在线存储空间,可以将海量数据自动归档到光盘库,降低长期存储成本;实现冷数据的分钟级快速回调,满足 0~4 级应用的存储需求。四种介质、四类存储节点,提供热温冷冰自动流转,满足各类应用的灵活配置需求,通过性能型、均衡型、容量型、高密容量型四种机型的按需灵活配置,进一步降低整体投入。

据介绍,浪潮信息生成式 AI 存储解决方案已经在中文语言大模型“源 1.0”中成功落地,面对千亿级参数量和数据量带来的挑战,浪潮信息通过 AS13000 高吞吐并行存储系统实现了多存储协议互通、数据融合,利用全闪的极致性能,助力“源 1.0”大模型实现了 16 天完成训练的超高效率。另外,国内 AI 独角兽公司采用浪潮信息提供的并行文件存储,承载 5000 亿参数量的 NLP 语言类大模型的数据集 Token 和 CheckPoint 文件,轻松应对大/小文件的读写挑战,配置 AS13000 全闪存储集群,支持高性能 RocE 组网和 GPU 直通存储功能,带宽超过 300GB、存储性能超过 350 万 IOPS,保证存储集群的高可用与敏捷扩容。

依据在大模型与 AI 存储解决方案的积累,可以看到,浪潮信息在打造针对 AIGC 的数据存储大底座,接下来浪潮信息还将联合合作伙伴,助力生成式 AI 在金融虚拟客服、图片编辑设计、智能驾驶、跨模态检索等场景和行业模型方案的落地工作,让 AI 大模型真正落地生花,进入千行百业的生产流程中,发挥 AIGC 的更多价值。CSDN 也将持续报道大模型与数据存储技术最新进展。文章来源地址https://www.toymoban.com/news/detail-551842.html

到了这里,关于AIGC 爆火,浪潮信息要做大模型的数据存储大底座的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 浪潮信息云峦服务器操作系统KeyarchOS体验与实践

    大家好我是网络豆,一名云计算运维人员,本文将会带大家体验一下浪潮信息服务器操作系统云峦KeyarchOS。看看浪潮信息服务器操作系统云峦KeyarchOS的优势与实践操作如何。 KeyarchOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统,支持x86、ARM等

    2024年02月05日
    浏览(36)
  • 使用X2Keyarch迁移CentOS至浪潮信息KeyarchOS体验

    浪潮信息研发的云峦操作系统KeyarchOS(简称KOS), 是一款面向政企、金融等企业级用户的 Linux 服务器操作系统,其稳定性、安全性、兼容性和性能等核心能力均已得到充分验证。历经近10年自主研发历史,支持x86、ARM、Power主流架构处理器,面向行业提供服务器操作系统解决方案

    2024年02月05日
    浏览(34)
  • 浪潮信息赵帅:多元算力时代 开源开放的OpenBMC成为服务器管理优先解

    “ 多元算力时代下,大规模的异构服务器设备面临多种处理器架构、多种设备协议、不同管理芯片兼容的系统化设计挑战,管理固件也迎来新的变革。开源开放的OpenBMC,以创新的分层解耦软件架构,兼容不同处理器架构、算力平台和管理芯片,为多元算力基础设施提供了开

    2024年02月12日
    浏览(26)
  • 到广阔的边缘市场去,浪潮信息首次发布全栈边缘计算软硬件新品

    出品 | CSDN 云计算 智慧时代,一切皆计算,早已不再是一句口号。据国际研究机构 IDC 数据显示,2023 年超过 50%的企业新增 IT 基础设施会部署在边缘,而 Gartner 研究显示,到 2025 年,超过 75%的数据生成和数据处理会在边缘进行。 2023浪潮信息边缘计算大会上,浪潮信息边缘计

    2024年02月07日
    浏览(31)
  • 浪潮信息龙蜥联合实验室领衔成立 Serverless SIG 打造标准化开源解决方案

    近日, 浪潮信息龙蜥联合实验室 在龙蜥社区领衔成立 Serverless SIG(服务器无感知计算 SIG),并举行了首届 Serverless SIG MeetUp,活动由浪潮信息龙蜥联合实验室主办,来自浪潮信息、天津大学、阿里云、Intel、中国联通等多位资深专家, 分享了不同业务场景下的 Serverless 案例实

    2023年04月26日
    浏览(44)
  • 浪潮信息带头编制服务器液冷冷板标准为行业提供规范化和标准化的服务

    这些年,浪潮信息一直专注于推动技术创新及产业升级,瞄准液冷产业化发展的新趋势,浪潮信息持续推进液冷标准的建立与应用推广,并已经取得了良好的成效。 2023年2月28日,由浪潮信息牵头制定的《服务器及存储用液冷部件技术规范第1部分:冷板》团体标准在中国电子

    2024年02月11日
    浏览(80)
  • 浪潮信息Inspur KOS性能及稳定性位列前茅 与万里安全数据库GreatDB高效兼容

    为满足企业在数据安全、产品可控等数字化转型中的多样化需求,浪潮信息正基于技术与应用的深厚积累,持续优化创新产品及服务能力,助力企业在数智化时代下构筑黑心竞争力。日前,浪潮信息打造的Inspur KOS V5与万里安全数据库软件GreatDB V1.0、V5.1完成兼容性互认证测试

    2024年02月12日
    浏览(40)
  • 浪潮信息自研服务器操作系与万里安全数据库软件完美兼容 功能及性能俱佳

    日前,由浪潮信息自主研发的服务器操作系统Inspur KOS V5与万里安全数据库软件GreatDB V1.0、V5.1完成兼容性互认证测试,两款产品均展现出了优异的兼容性能及高效的运行效果,在用户数据安全、产品可控等数字化转型和可靠性需求上皆能为客户提供更全面的解决方案。 构建优

    2024年02月10日
    浏览(31)
  • 浪潮信息G7服务器打造高效智慧算力,全新支持第五代英特尔®至强®可扩展处理器

    近日,浪潮信息多款G7服务器创新升级,全面支持英特尔最新发布的第五代至强®可扩展处理器并完成适配,通过系统架构、硬件、固件和散热等方面的创新设计,以及AI加速功能引入,G7服务器的通用计算性能提升23%,在客户工作负载中每瓦特性能提升超36%,尤其是在AI推理场

    2024年01月20日
    浏览(42)
  • AIGC革新浪潮:大语言模型如何优化企业运营

    在当今快速发展的商业环境中,企业对于有效管理知识资产的需求日益增长。知识管理作为企业核心竞争力的关键组成部分,对于提高决策质量、增强创新能力和优化运营流程起着至关重要的作用。随着数字化转型的推进,企业对知识管理系统提出了新的要求,期望其能够更

    2024年04月22日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包