云原生演进中的AI算力高效使用

这篇具有很好参考价值的文章主要介绍了云原生演进中的AI算力高效使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0 1 云原生技术的普及与发展

云原生技术是一种基于容器技术的轻量级、高可用的应用架构,具有弹性扩展、快速部署、统一管理等特点。随着企业对敏捷开发和快速迭代的需求不断增加,云原生技术的普及与发展已成为不可逆转的趋势。

云原生演进中的AI算力高效使用,云原生,人工智能,gpu算力图1. 云原生技术发展之路

云原生技术通过将应用与底层基础设施解耦,实现了应用的快速部署和动态扩展。它采用了容器化、微服务、CICD等技术手段,使得应用可以更加高效地运行在云环境中。同时,云原生技术还提供了强大的监控和日志功能,帮助企业更好地管理和维护应用。

云原生演进中的AI算力高效使用,云原生,人工智能,gpu算力

图2. 云原生三大特征

随着云原生理念的推广与技术的不断丰富,云原生已经进入成熟阶段,越来越多的企业开始采用云原生架构来构建和部署应用。当前云原生引领数字化转型升级已成为趋势,在人工智能、大数据、边缘计算、金融等领域崭露头角。云原生技术(例如:容器、微服务、DevOps等)提供的极致弹性能力和故障自愈能力已成为应用开发的最佳技术手段。原生理念及其技术以灵活性、敏捷性和便捷性已获得各行各业的广泛关注。云原生促使产业融合速度加快、网络业务迭代周期缩短。

0 2 人工智能通过容器实现最佳表现

2.1 容器非常适合人工智能应用的部署和管理

首先,容器可以帮助人工智能应用实现快速部署和动态扩展。由于容器具有轻量级、可移植性和快速部署的特性,人工智能应用可以轻松地在不同的云平台之间进行迁移和部署。同时,容器还可以根据需求动态地扩展或缩减应用,从而确保人工智能应用能够高效地应对突发流量或节省资源。

其次,容器可以帮助人工智能应用实现高可用性和容错性。容器可以在多个节点之间自动进行负载均衡和容错处理,从而确保人工智能应用的可用性和稳定性。当某个节点出现故障时,容器可以快速地将应用切换到其他节点上,从而保证应用的正常运行。

此外,容器还可以帮助人工智能应用实现数据安全和隐私保护。由于容器具有隔离性,可以限制对底层资源的访问权限,从而防止数据泄露和攻击。同时,容器还可以通过加密通信、访问控制和安全审计等手段来保护数据的安全性和隐私性。

最后,容器可以帮助人工智能应用实现高效的资源利用和管理。容器可以对CPU、内存和存储等资源进行精细化管理,从而确保人工智能应用能够高效地利用资源并降低成本。

综上所述,容器是一种非常适合人工智能应用的部署和管理方式。通过容器化人工智能应用,可以实现快速部署、动态扩展、高可用性、数据安全和资源高效利用等多种优势。

据统计,目前AI容器化场景是最常见的部署形态。这也佐证了云原生是AI应用开发、部署的最好形式。

2.2 AI应用转换为容器的好处

将整个 AI 应用程序开发到部署转换为容器的好处如下:

· 针对不同版本的框架、操作系统和边缘设备/平台,为每个 AI 模型提供单独的轻量容器。

· 每个 AI 模型可以都有一个容器,用于自定义部署。例如:一个容器对开发人员友好,而另一个容器对用户友好且无需编码即可使用。

· 每个 AI 模型的单独容器,用于 AI 项目中的不同版本或环境(开发团队、QA 团队、UAT(用户验收测试)等)。

· 容器应用程序真正更有效地加速了 AI 应用程序开发-部署,并有助于维护和管理用于多种用途的多个模型。

0 3 AI应用多种形态并存的现状

云原生技术发展之路并非一蹴而就,因为它不仅涉及到架构改变,也包括理念的变化,公司流程和人员配置的相应调整等。

此外,每个企业的IT基础设施水平是不一样的,甚至企业内部也可能存在多重基础设施形态。如KVM虚拟机,OpenStack虚拟机,VMWare虚拟机,裸服务器,虚拟化节点,docker,K8S等,不同应用在云原生进展中会存在进度不一致的现象。如果等所有云原生应用完成,则会无法尽快享受到软件定义AI算力的效益。

AI赋能千行百业,在AI浪潮席卷而来的背景下,所有人都希望尽快参与到AI的盛宴中,首先关注的是make it work,于是就不可避免的出现了多AI应用形态并存的局面。

目前主流使用AI算力的形态是最粗放的方式,即直通物理GPU或者简单切分后的vGPU直通。

云原生演进中的AI算力高效使用,云原生,人工智能,gpu算力

图3. 常见的算力使用的方式

根据AI底层基础实施层的形态,也就有了如下的组合方式:

· 直通KVM/VMWare虚拟机。

· 直通Docker容器。

· 裸服务器直接使用。

· K8S通过device plugin挂载物理整卡使用。

· OpenStack 通过cyborg挂载物理或者虚拟GPU使用等。

0 4 OrionX赋能云原生

4.1 OrionX池化解决方案的部署灵活性

OrionX部署的灵活性可以通过3个关键字来概括:“一池多芯”、“一池多云”和“分离部署”:

“一池多芯”,即OrionX不仅支持Nvidia GPU卡,也支持国产加速卡。

“一池多云”,指软件可以部署在任何的云环境中,甚至是虚拟化节点,以及裸服务器中。

云原生演进中的AI算力高效使用,云原生,人工智能,gpu算力

图4. OrionX支持“一池多芯,一池多云”的部署

“分离部署”,即OrionX通过远程调用,可以基于高速无损网络,跨节点甚至跨集群调取智算资源,使 AI应用与物理GPU服务器分离部署,从而进一步降低碎片化率。

云原生演进中的AI算力高效使用,云原生,人工智能,gpu算力

图5. 阶段3的“远程调用”能力

所以总体上,有如下两条路线可以解决云原生中多形态并存的池化算力使用问题:

· 通过“一池多云”提供“多应用-算力集群”部署。

· 通过“分离部署”提供“多应用集群-单算力集群”部署。

4.2 异构多云场景下的算力集群统一纳管

该方案是指,每种形态的应用维持原有AI算力资源拓扑使用,通过各自部署一套OrionX软件,进行AI算力的纳管和灵活高效的调度,并通过oCenter作为管理界面,进行多资源池的统一运维和管理。

云原生演进中的AI算力高效使用,云原生,人工智能,gpu算力

图6. 异构多云算力集群统一纳管

这种方式不需要依赖于高速无损网络互联所有的服务器,部署和使用相对简单;缺点是由于每个应用环境独立维护,并由各自算力池化集群支持,所以维护成本较高、池化复用的效果没有发挥极致。

4.3 多应用集群下的算力底座

在该方案中,所有的AI算力通过部署了OrionX的智算容器云纳管,调度和分配,其它多个应用集群的应用都通过无损网络来使用这个算力集群的算力。随着时间推移,完成云原生改造的业务可以逐步向智算容器云中迁移。

云原生演进中的AI算力高效使用,云原生,人工智能,gpu算力

图7. 多应用场景下的算力底座
 

这种部署需要依赖于高速无损网络,但对运维管理和后续的逐步迁移中比较友好。

4.4 总结

这两种情况各有优缺点,建议企业在云原生演进进程中,根据各自环境情况进行选择。实际方案选择依赖于现有基础设施的几个关键因素,比如包括但不限于:集群内的互联网络技术(包括现有网路互联方式、是否有后续组网改造计划),以及多种形态集群的规模等。

归纳一下:

· 异构多云场景下的算力集群统一纳管适合于多种形态应用并存且数量较多,不同形态应用之间没有高速无损互联网络的企业。通过异构多云部署,用户可以在统一界面管理多个应用,并尽可能发挥每个集群内的AI算力效能。

· 多应用集群下的算力底座适合配置了高速无损网络的企业,通过算力池化技术,用户可远程调用智算容器云中的AI算力给多个应用,避免为了某些极少应用单独配置基础设施的采购及运维成本。

展望未来,在长距离无损网络成为现实情况下,企业将内部所有算力基础设施整合为一朵的智算容器云,会是最理想的状态。现有的方案作为中间的演进方案都具备了未来平滑演进到最终形态的企业智算基础设施。

参考文献

1. 《云原生架构:构建高可用、可伸缩的现代互联网应用》

https://www.51cto.com/article/764431.html 

2.《容器技术引领数字化转型:开启高效部署和可扩展的新时代》https://baijiahao.baidu.com/s?id=1769912365777860254&wfr=spider&for=pc 

3. 《通过AI 应用程序容器化实现高效的MLOpshttps://www.elecfans.com/d/1863258.html 文章来源地址https://www.toymoban.com/news/detail-803780.html

到了这里,关于云原生演进中的AI算力高效使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深入探索AI原生应用】文心大模型4.0开启人工智能之门

    10月17日,以“生成未来(PROMPT THE WORLD)”为主题的Baidu World 2023在北京首钢园举办。 李彦宏在百度世界2023上表示: “ 大模型带来的智能涌现,这是我们开发AI原生应用的基础。” 。当天,李彦宏以 《手把手教你做AI原生应用》 为主题发表演讲,发布 文心大模型4.0版本 ,并

    2024年02月08日
    浏览(54)
  • 人工智能三要素:算法、算力、算据(数据)

    算力属于拼财力 算法属于拼能力 算据分两种: 存量算据 :互联网已经产生的,但是斑驳纷杂,从算法原理上讲,难以找到需要注意的数据。 原生数据 :由ai直接产生,或者和人类,和其他事物交互产生。有更即时的反馈,更快速地纠错,以及更贴合实际应用的数据价值,

    2024年02月02日
    浏览(42)
  • 人工智能三个核心要素:算法、算力、数据

    人工智能(Artificial Intelligence,简称AI)是指计算机系统模拟、模仿和执行人类智能的能力。它是一门研究如何使计算机能够像人类一样思考、学习、推理和解决问题的科学和技术领域。 人工智能通过利用大量的数据和强大的计算能力,以及各种算法和技术,使计算机系统能

    2024年02月07日
    浏览(46)
  • 世界人工智能三要素:数据、算力和算法

    随着我国社会经济发展水平的提升,人工智能的技术运用的越来越熟练,智能推送等应用已经悄无声息的渗透到了我们的生活之中,今天我们就来聊一聊,人工智能的三大要素。 1.数据 实现人工智能的首要因素是数据,数据是一切智慧物体的学习资源,没有了数据,任何智慧

    2024年02月13日
    浏览(43)
  • 【深入探讨人工智能】AI大模型在自动驾驶中的应用

    当今, AI大模型 是一个火热的。随着人工智能的迅猛发展,AI大模型在各个领域展现出了巨大的潜力和应用价值。在自动驾驶领域,AI大模型的应用驱动自动驾驶算法具备更强的泛化能力。 那么 AI大模型 为自动驾驶赋能了什么?它的未来发展前景又是怎样? 本文将以

    2024年02月08日
    浏览(53)
  • AI技术在网络攻击中的滥用与对抗 - 人工智能恶意攻击

    随着人工智能技术的迅猛发展,我们享受到了许多便利,但同时也面临着新的安全威胁。本文将探讨人工智能技术在网络攻击中的滥用,并提出一些防御机制。 人工智能技术的先进性和灵活性使其成为恶意攻击者的有力工具。以下是一些常见的人工智能滥用案例: 欺骗和钓

    2024年02月12日
    浏览(42)
  • AI帮写会重复吗?探索人工智能写作中的性边界

    大家好,小发猫降重今天来聊聊AI帮写会重复吗?探索人工智能写作中的原创性边界,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: AI帮写会重复吗?探索人工智能写作中的原创性边界 随着人工智能(AI)技术

    2024年04月10日
    浏览(93)
  • 【探索AI未来】人工智能技术在软件开发中的应用与革新

    AI是人工智能的缩写,是计算机科学的一个分支,致力于研究和开发能够模拟和执行人类智能任务的技术和系统。AI系统可以通过 学习 、 推理 、 感知 和 自动化 等方式,从大量的数据中 获取信息 、 分析模式 ,然后 做出决策 或 执行特定任务 。 软件开发交互则是指在软件

    2024年02月12日
    浏览(71)
  • 定制化需求|一个人工智能大模型应用的算力成本有多高?

    “  人工智能的核心是算力。 ” 01 — 需要多少预算? 最近在学习大模型ChatGPT、ChatGLM,研究结合企业的应用场景,解决一些业务难点、痛点,不免涉及本地化部署、微调、训练、知识库文档数据提取等等方面的问题。‍‍‍‍ 同时还需要对硬件成本进行一个大致的估算:这

    2024年02月05日
    浏览(48)
  • 企业级AI大模型应用中的人工智能道德与法律规范

    随着人工智能技术的快速发展,企业级AI大模型已经成为了各行各业的核心技术,为数字经济提供了强大的支持。然而,与其他技术不同,AI大模型在应用过程中涉及到的道德和法律问题更加复杂,需要企业和研究人员在开发和应用过程中加强对这些问题的关注。本文将从以下

    2024年02月21日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包