www.design-reuse-china.com
搜索,选择,比较,与提供商进行安全高效的联系
Design & Reuse We Chat
D&R中国官方微信公众号,
关注获取最新IP SOC业界资讯

牛芯基于UB协议,以IP筑牢生态根基

AI 大模型算力需求激增,催生对高端互联技术国产化的迫切需求。近日,面向超节点的互联技术 UB(Unified Bus,中文名"灵衢")发布,不仅填补国内超高速互联协议空白,更打破国外 NVLink 技术垄断。

mp.weixin.qq.com, Oct. 13, 2025 – 

作为 UB 协议生态的核心力量,牛芯半导体聚焦高速串行互联技术,正全力推动相关 IP 开发。目前,牛芯半导体已取得阶段性进展––其自主开发的 PHY IP 已完全兼容 UB 协议标准,物理层与数据链路层等核心功能的开发也正稳步迈向成熟。

牛芯半导体的 PHY IP 瞄准超高速 SerDes 接口,实现动态速率与通道宽度的灵活切换及低误码率;控制器 IP 则聚焦于同步内存访问、智能流控与无损带宽动态切换等特性。另外,公司已构建相应的验证体系,以支撑未来与生态伙伴的全面互通测试。这一系列布局,旨在为 AI 大模型训练与高性能计算所需的"算力资源池化"奠定硬件基础,助力开放算力生态。

以上介绍了牛芯半导体在UB协议生态中的IP布局与最新进展。为更全面地展现UB协议的设计理念与产业价值,本文将分享转载"半导体行业观察"公众号的深度解读––《Nvlink的国产替代:华为Unified Bus背后的思考》。

Unified Bus 的协议文档终于发布了。协议最初的设计大多数是四五年前的工作了,我也有两年多没有继续做网络互联方面的工作,但今天读到这本 500 多页的文档,还是倍感亲切。

与大多数协议文档一样,UB 文档介绍了 Unified Bus 协议的大量细节,但很少涉及它设计背后的思考。作为曾在早期参与 UB 项目的一名小兵,介绍一些我个人的思考。今天产品化的 UB 可能与我们当年的设计有诸多不同,因此不要把本文作为权威指南。当成段子看就行了。

为什么要做 UB

要理解 Unified Bus (UB) 诞生的必然性,我们必须回到一个计算机体系结构中的根本性矛盾:总线(Bus)与网络(Network)的割裂。

长久以来,计算机世界被这两种截然不同的互联范式划分为一个个孤岛。

在孤岛内部(例如一台服务器或一个机箱内),我们使用总线技术,如 PCIe 或 NVLink。它们是为紧耦合系统设计的,设备间共享着统一的物理地址空间,通信延迟可以做到纳秒级,带宽极高。这是性能的天堂,但这个天堂的疆域极其有限––总线的物理距离和可连接的设备数量都受到严格限制。

在孤岛之间,我们则依赖网络技术,如以太网或 InfiniBand。它们为松耦合系统而生,擅长将成千上万的节点连接起来,具备超强的扩展性。但这种扩展性是有代价的:复杂的协议栈、额外的转发开销、微秒甚至毫秒级的延迟,都让网络的性能与总线相比,存在着数量级的鸿沟。

这种"内外有别"的架构,在很长一段时间里是行之有效的。然而,一个幽灵开始在计算机世界上空盘旋––Scaling Law。

大约 10 年前,深度学习领域的研究者们发现了一个惊人的规律:只要持续增大模型规模、数据量和计算量,模型的性能就会随之可预见地、持续地提升。这个发现彻底改变了游戏规则。曾经被认为是"足够用"的单机 8 卡配置,在动辄百亿、千亿参数的巨型模型面前,瞬间变得杯水车薪。

此时,一个清晰而迫切的需求摆在了所有系统架构师面前:我们能否推倒总线与网络之间的这堵墙?我们能否创造一种统一的互联,既拥有总线级的编程简易度和极致性能,又具备网络级的超大规模扩展能力?

这正是 UB 的核心使命。它不仅仅是对现有协议的修补或改良,而是一次彻底的重构。UB 的目标,是构建一个真正的"数据中心计算机"(Datacenter-scale Computer),将整个集群的异构算力、内存、存储无缝地连接成一个统一的、可编程的整体。在这个愿景中,访问一台远程服务器上的内存,应该像访问本地内存一样简单自然;上万个处理器协同计算,应该像在一块芯片上一样高效。

主从架构与对等架构

传统的计算机系统中,CPU 和其他设备(如内存、存储、网卡)之间通常是主从架构。CPU 是主(Master),负责发起和控制所有的数据传输,而其他设备是从(Slave),被动地响应 CPU 的指令。PCIe、RDMA 都是这种主从架构的产物。在 CPU 性能服从摩尔定律一骑绝尘的几十年前,主从架构有其历史优势。但在异构计算成为主流的今天,主从架构就日益成为现代计算系统的瓶颈。

性能瓶颈:所有 I/O 操作都需要 CPU 介入,随着设备数量和速度的增加,CPU 成为整个系统的瓶颈。

延迟较高:数据路径长,需要经过多层软件栈,带来额外的软件开销和数据拷贝,导致延迟增加。即使 RDMA 等技术可以实现 CPU 上的用户态软件直通网卡,仍然受限于 PCIe uncacheable 的诸多限制,无法实现真正的分布式共享内存。

扩展性差:在异构计算场景下,大量 GPU、NPU 等智能设备都需要和 CPU 通信,主从架构难以高效扩展,无法形成设备间的高效"横向"数据交换。

为了打破这一瓶颈,UB 提出了一种对等架构。在 UB 的世界里,所有设备都是平等的,可以被看作是一个个内存块。任何设备都可以通过 Load/Store 这样的内存语义,像访问本地内存一样,直接访问其他设备的内存,而不需要对方 CPU 的干预。这使得数据路径可以完全绕过操作系统,实现零拷贝和微秒级的超低延迟。

这种对等架构带来了许多好处。例如,不同服务器的内存可以组成一个共享的内存池,一个计算密集的应用服务器上空闲的内存,可以被一个内存密集的应用服务器高效利用。各种异构的计算资源、存储资源也可以池化,根据应用的需求动态组合,提高了资源利用率,也减少了不必要的数据搬运。

总线与网络

要理解 UB 的设计哲学,就需要理解总线和网络的根本区别。当然,我们不应陷入抠概念的辩经,现代的总线(如 PCIe)也借鉴了网络的交换思想,但从设计目标和应用规模上看,它们的范式差异是显著的。

传统上,我们在一个"超节点"(例如一台服务器或一个机箱)范围内使用总线技术以追求极致性能;而在超节点之间,则使用网络技术以追求大规模扩展。这是两种完全不同的技术栈和编程抽象。

UB 的核心价值在于,它在架构和编程抽象上实现了统一。无论物理上是超节点内的高速电信号背板,还是超节点间的长距离光纤,UB 都为上层应用提供了统一的内存语义。

这意味着,UB 承认在底层的物理实现上,超节点内(更像总线)和超节点间(更像网络)的互联技术可以是不同的,但它通过一层统一的抽象,将这种物理差异向应用屏蔽了。这最终实现了"鱼与熊掌兼得":既有总线级的编程简易度和高性能潜力,又具备网络级的超大规模扩展能力。

总线与网络的区别,并非对错之分,而是在不同尺度下的范式差异。正如牛顿力学在宏观低速世界中足够精确和简洁,而我们只有在接近光速或深入微观时才需要相对论和量子力学。长久以来,我们在'机箱内'这个宏观世界里安心使用总线这个经典范式,而在'数据中心'这个相对论尺度上则依赖网络。然而,AI 的 Scaling Law 如同一种新的观测工具,它将计算的需求推向了极致,让两个尺度之间的'裂痕'––即通信鸿沟––变得无法忽视。这正是 UB 诞生的历史必然性:我们需要一个能统一这两个尺度的新范式。

点击阅读更多

 Back

业务合作

添加产品

供应商免费录入产品信息

点击此处了解更多关于D&R的隐私政策

© 2026 Design And Reuse

版权所有

本网站的任何部分未经Design&Reuse许可,
不得复制,重发, 转载或以其他方式使用。