客户案例：高性能、大规模、高可靠的AIGC承载网络-Toy模板网

这篇具有很好参考价值的文章主要介绍了客户案例：高性能、大规模、高可靠的AIGC承载网络。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

客户是一家AIGC领域的公司，他们通过构建一套完整的内容生产系统，革新内容创作过程，让用户以更低成本完成内容创作。

客户网络需求汇总

RoCE的计算网络	RoCE存储网络
1.不少于600端口200G以太网接入端口，未来可扩容至至少1280端口	1.不少于100端口200G以太网接入端口，未来可扩容至至少240端口
2. 全网无收敛（1:1收敛比），全线速交换	2. 带宽收敛比不大于3:1
3. 支持RoCE实现无损以太网	3. 支持 RoCE 实现无损以太网

整网方案设计的思路

高性能

AIGC承载网络需要具备高宽带的特性，以支持快速的数据传输和处理。生成内容可能涉及大规模的文本、图像或视频数据，因此需要具备高带宽的网络连接，以便快速传输数据到计算资源节点进行处理；此外，AIGC承载网络需要实现低时延的要求，以确保生成内容的实时性和响应性。在用户上传任务或请求后，网络需要迅速响应并进行任务分配或资源调度。

大规模

AIGC承载网络需要能够处理大量的用户请求和任务，并同时支持多个用户的并发访问。因此，网络架构需要具备高度的可扩展性和负载均衡能力。例如，采用分布式计算和分布式存储技术，使得网络可以横向扩展，自动调节资源分配以应对不断增长的用户需求。

高可用

AIGC承载网络需要具备高可用性，以确保服务的连续性和稳定性。由于AIGC是基于人工智能技术的，其生成过程可能需要较长的时间和大量的计算资源。因此，网络需要具备容错机制和故障恢复策略，以应对硬件故障、网络中断或其他意外情况。

整体方案架构

客户案例：高性能、大规模、高可靠的AIGC承载网络,数据中心,AIGC,网络

计算网络设计方案一：整网 1:1 无收敛

不考虑GPU的8个接口的接入方式，8个接口接入1台或多台ToR

客户案例：高性能、大规模、高可靠的AIGC承载网络,数据中心,AIGC,网络

交换机 10 Leaf + 20 ToR= 30 台，提供640个接入端口（20*32=640），每台GPU服务器8端口，可以最大可接入GPU服务器 80台
接入侧和Fabric内部互联均可以使用200G的AOC（含两端的200G光模块），其中接入侧600条，Fabric侧600条，合计1200条

方案一的扩展性

基于该架构，最多可以接入64台ToR，最大可以扩展到2048个200G接口接入，满足1280接口接入的扩展性要求

计算网络设计方案二：整网 1:1 无收敛

考虑GPU的8个接口的接入方式，8个接口接入到8台Leaf，每8台Leaf作为一个分组

客户案例：高性能、大规模、高可靠的AIGC承载网络,数据中心,AIGC,网络

交换机 13 Leaf + 24 ToR = 37 台，按600个接入端口（75台GPU服务器），每组8个ToR接入25台GPU服务器，3组ToR接入75台
每组ToR接入25台GPU服务器，下行接入带宽为200*200GE，因此，上行也需要至少是200*200GE带宽，每台ToR到每台Leaf为2条200G，总上行带宽为2*13*8*200GE，满足1:1收敛要求
接入侧和Fabric内部互联均可以使用200G的AOC（含两端的200G光模块），其中接入侧600条，Fabric侧624条，合计1224条

方案二的扩展性