www.design-reuse-china.com
搜索,选择,比较,与提供商进行安全高效的联系
Design & Reuse We Chat
D&R中国官方微信公众号,
关注获取最新IP SOC业界资讯

互联:高性能计算的必经之路

随着语言大模型的爆火,引发了新一波的算力需求海啸。模型参数规模不断扩张,一次GPT的部署动辄需要数万块GPU,各大GPT俨然成了GPU的熔炉。传统的单一架构显然难以胜任。于是,计算方式逐渐发生从单机到分布,从同构到异构的转变。与此同时,由于训练大模型的数据量极大,服务器不同计算节点之间、异构xPU之间,超高带宽、超低延迟和超高可靠性的互联技术已成为高性能计算的迫切需求。

imgtec.eetrend.com, Sept. 26, 2025 – 

高性能计算互联的演变中,目前有三大趋势。集群间,互联方式从TCP/ IP向RDMA架构转变; Die间,多种芯粒互联技术正在加速崛起;片间,由PCIe向多节点无损网络演进。

1、集群间互联

如今的AI训练的标配,动辄需要几百上千个GPU连在一起的集群计算。面对这样规模庞大的数据交互,传统的TCP/IP协议逐渐被RDMA技术取代。RDMA技术有四种实现:InfiniBand、RoCEv1、RoCEv2和iWARP。业界通用的网络解决方案向InfiniBand和RoCEv2集中。

作为一种网络互联技术,InfiniBand(IB)网络起源于超算,其设计旨在为超算提供低延迟、高吞吐量的数据传输解决方案。随时间推移,IB也成为大规模AI训练集群的一种选择。然而,使用InfiniBand的代价也极为高昂。通过InfiniBand部署超大规模AI训练和推理设施比基于以太网昂贵得多,其网络成本已高达集群成本的20%。且由于AI训练集群与超算不同,随着大模型的增长,其集群将持续以难以置信的速度增长,让AI企业不得不去寻求一种更具性价比的网络形式,即下一代高速以太网。

下一代高速以太网,基于以太网RoCE(RDMA over Converged Ethernet)网络协议,可以利用现有的以太网基础设施,构建InfiniBand网络性能接近或等同的RDMA网络。综合来说,高性能远距离传输的战场里,仅剩InfiniBand和下一代高速以太网两大阵营。双方势均力敌,在同一个市场蓬勃发展,各有优势和适用场景。

2、Die间互联

基于Chiplet架构,创新的Die间互联技术正加速崛起。

D2D接口:随着芯片系统变得越来越复杂,不同功能单元(芯粒)产生的大量数据流需要专用的互联接口来实现数据的传输和调度。这种专用的互联接口通常简称Die2Die接口,负责在不同颗粒之间传输数据,协调调度数据流,确保整个系统的高效运行。

IO Die:AMD的高性能芯片架构中就包括了这样一个关键组件,即IO Die。IO Die作为数据传输和调度核心,常常整合存储单元、Die-to-Die接口和多种高速接口,通过自定义算法实现数据流和信息流的分发调度。IO Die通常适用于2.5D Chiplet芯片架构。

Base Die:当芯片的性能继续增高,互联方式逐渐从2D-3D垂直迭代。行业中开始基于芯粒3D堆叠的方式,进一步提升芯片算力密度。同时集成die-to-die 3D接口、Cache等模块,以实现更高效的垂直互联,最大程度的减少存储本身带来的延迟和功耗。这种产品类型被称作Base Die,典型产品应用如英特尔Meter Lake、Ponte Vecchio。

目前,AMD、英特尔为代表的IO Die、Base Die等产品仅用于其自有产品的搭建。缺乏更为通用化的互联芯粒产品已成为Chiplet生态的关键痛点。

3、片间互联

大模型训练需要极高的算力,尤其是参数百亿、千亿的大模型,对GPU间的互联带宽要求极高。GPU间、异构xPU间的互联技术,逐渐由传统的PCIe向多节点无损网络演进。PCIe作为应用最广泛的计算机中外围设备互连标准,经过几十年的发展,已进入6.0甚至7.0时代。PCIe在大多场景下是非常高效和可靠的,但随着AI大模型等数据规模越来越大,并行处理需求急剧增加,原本多个用户共用单个GPU,已演变为多个GPU并行处理一个任务,甚至需要几百上千个GPU连在一起的集群计算。PCIe受限于带宽、延迟、数据传输效率,已成为大规模计算集群的互联瓶颈。正因如此,多节点无损网络协议诞生了。

本文转自:TWCL探微芯联,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

点击阅读更多

 Back

业务合作

广告发布

访问我们的广告选项

添加产品

供应商免费录入产品信息

© 2023 Design And Reuse

版权所有

本网站的任何部分未经Design&Reuse许可,
不得复制,重发, 转载或以其他方式使用。