|
|
|
www.design-reuse-china.com |
|

应对 AI 算力网络难题,是德科技推出 KAI 系列方案与三款测试设备
当今人工智能的快速发展是以庞大的算力集群和网络为支撑,而算力网络的稳定运行又依托于检测方案与设备。近日,是德科技发布全新KAI系列解决方案和三款新品测试设备。通过仿真真实世界的AI工作负载,对AI集群组件进行验证,确保了AI数据中心网络的可靠、出色运行。
www.laoyaoba.com, May. 16, 2025 –
AI 浪潮席卷全球,算力网络暗存瓶颈
今年年初,DeepSeek的发布将生成式人工智能从曲高和寡、更多关注技术演进的状态,变成一款实用性很强的工具。自从DeepSeek面世以来,很多企业机构均开始在小范围内使用这样一款人工智能工具。根据Bloomberg统计,2022年AI市场大概在869亿美元量级,到2030年将达到1.3万亿美元规模。MarketsandMarkets预计,从2024年到2030年,AI市场的年增长率将超过30%。IDC预测,到2030年人工智能将为全球经济贡献19.9万亿美元,占全球GDP的3.5%。
对此,是德科技大中华区高速数字市场部经理李坚指出,不仅仅是在未来的一到两年,可能在五到十年的时间里,人工智能市场都将拥有快速增长的机会。这种增长机会不仅仅来自算力基础设施,未来可能更多来自应用和服务。
然而,在人工智能在快速发展的同时,我们也必须关注到人工智能算力网络建设中所面临的挑战。首先,当今行业内进行的是真正的大模型、大算力运算。大算力的一个重要基础就是大带宽和大量的数据交换。底层则是由以太网、存储、铜缆、PCIe接口等搭建而成的基础设施。
如今以太网的量级标准大多为400/800G。乐观估计,至2030年以前,以太网带宽将上升到1.6/3.2T,增长4-8倍。由于以太网更多是在各个超级节点之间进行数据交换,随着模型的增大,算力节点增多,需要更强的数据交换能力,对以太网的要求也会更高。
然而,随着网络带宽的增大,大量器件将在接近其物理极限的性能下运行,器件是否能够稳定工作成为问题。很多器件在带宽增大后功耗也随之增加,进而使器件温度也随之变化;一些器件对温度高度敏感,特别是光学器件,温度稍微有变,器件性能就会改变;其他器件也会因干扰出现各种各样的问题。
此外,当今的数据中心进行大模型计算所需服务器已经不是几百块或者几千块计算卡,而是万卡集群、十万卡集群。在这样大规模计算集群中,各个超级节点大量采用的是铜缆连接,而非传统上PCB板传递信号,比如英伟达发布的NVL72机柜。这样的环境下使用PCB板传递信号,损耗太大、干扰太大。算力中心的通信、数据交互也不再是简单的从客户端到服务器的"南北"通信,各个节点之间都存在大量的横向通信、"东西"通信。也就是说,当前我们面临的是一个"全网络"概念。在以往南北通信为主的情况下,一个节点的损坏可以由其他节点接入弥补。在全网络的时代,断掉一个节点,整个网络的效率都可能出现问题。
"实际情况是网络越大往往意味着就越脆弱。这是目前整个产业界面临的共同问题。也就是说,我们需要更好的仿真检测方案,以增强网络设计、网络参数配置、网络互连等方面的可靠性。"李坚强调。
点击阅读更多



Back