牛芯基于UB协议，以IP筑牢生态根基

搜索最新SoC解决方案
关于汽车电子...物联网...安全...音频...视频

AI 大模型算力需求激增，催生对高端互联技术国产化的迫切需求。近日，面向超节点的互联技术 UB（Unified Bus，中文名"灵衢"）发布，不仅填补国内超高速互联协议空白，更打破国外 NVLink 技术垄断。

mp.weixin.qq.com, Oct. 13, 2025 –

作为 UB 协议生态的核心力量，牛芯半导体聚焦高速串行互联技术，正全力推动相关 IP 开发。目前，牛芯半导体已取得阶段性进展––其自主开发的 PHY IP 已完全兼容 UB 协议标准，物理层与数据链路层等核心功能的开发也正稳步迈向成熟。

牛芯半导体的 PHY IP 瞄准超高速 SerDes 接口，实现动态速率与通道宽度的灵活切换及低误码率；控制器 IP 则聚焦于同步内存访问、智能流控与无损带宽动态切换等特性。另外，公司已构建相应的验证体系，以支撑未来与生态伙伴的全面互通测试。这一系列布局，旨在为 AI 大模型训练与高性能计算所需的"算力资源池化"奠定硬件基础，助力开放算力生态。

以上介绍了牛芯半导体在UB协议生态中的IP布局与最新进展。为更全面地展现UB协议的设计理念与产业价值，本文将分享转载"半导体行业观察"公众号的深度解读––《Nvlink的国产替代：华为Unified Bus背后的思考》。

Unified Bus 的协议文档终于发布了。协议最初的设计大多数是四五年前的工作了，我也有两年多没有继续做网络互联方面的工作，但今天读到这本 500 多页的文档，还是倍感亲切。

与大多数协议文档一样，UB 文档介绍了 Unified Bus 协议的大量细节，但很少涉及它设计背后的思考。作为曾在早期参与 UB 项目的一名小兵，介绍一些我个人的思考。今天产品化的 UB 可能与我们当年的设计有诸多不同，因此不要把本文作为权威指南。当成段子看就行了。

为什么要做 UB

要理解 Unified Bus (UB) 诞生的必然性，我们必须回到一个计算机体系结构中的根本性矛盾：总线（Bus）与网络（Network）的割裂。

长久以来，计算机世界被这两种截然不同的互联范式划分为一个个孤岛。

在孤岛内部（例如一台服务器或一个机箱内），我们使用总线技术，如 PCIe 或 NVLink。它们是为紧耦合系统设计的，设备间共享着统一的物理地址空间，通信延迟可以做到纳秒级，带宽极高。这是性能的天堂，但这个天堂的疆域极其有限––总线的物理距离和可连接的设备数量都受到严格限制。

在孤岛之间，我们则依赖网络技术，如以太网或 InfiniBand。它们为松耦合系统而生，擅长将成千上万的节点连接起来，具备超强的扩展性。但这种扩展性是有代价的：复杂的协议栈、额外的转发开销、微秒甚至毫秒级的延迟，都让网络的性能与总线相比，存在着数量级的鸿沟。

这种"内外有别"的架构，在很长一段时间里是行之有效的。然而，一个幽灵开始在计算机世界上空盘旋––Scaling Law。

大约 10 年前，深度学习领域的研究者们发现了一个惊人的规律：只要持续增大模型规模、数据量和计算量，模型的性能就会随之可预见地、持续地提升。这个发现彻底改变了游戏规则。曾经被认为是"足够用"的单机 8 卡配置，在动辄百亿、千亿参数的巨型模型面前，瞬间变得杯水车薪。

此时，一个清晰而迫切的需求摆在了所有系统架构师面前：我们能否推倒总线与网络之间的这堵墙？我们能否创造一种统一的互联，既拥有总线级的编程简易度和极致性能，又具备网络级的超大规模扩展能力？

这正是 UB 的核心使命。它不仅仅是对现有协议的修补或改良，而是一次彻底的重构。UB 的目标，是构建一个真正的"数据中心计算机"（Datacenter-scale Computer），将整个集群的异构算力、内存、存储无缝地连接成一个统一的、可编程的整体。在这个愿景中，访问一台远程服务器上的内存，应该像访问本地内存一样简单自然；上万个处理器协同计算，应该像在一块芯片上一样高效。

主从架构与对等架构

传统的计算机系统中，CPU 和其他设备（如内存、存储、网卡）之间通常是主从架构。CPU 是主（Master），负责发起和控制所有的数据传输，而其他设备是从（Slave），被动地响应 CPU 的指令。PCIe、RDMA 都是这种主从架构的产物。在 CPU 性能服从摩尔定律一骑绝尘的几十年前，主从架构有其历史优势。但在异构计算成为主流的今天，主从架构就日益成为现代计算系统的瓶颈。

性能瓶颈：所有 I/O 操作都需要 CPU 介入，随着设备数量和速度的增加，CPU 成为整个系统的瓶颈。

延迟较高：数据路径长，需要经过多层软件栈，带来额外的软件开销和数据拷贝，导致延迟增加。即使 RDMA 等技术可以实现 CPU 上的用户态软件直通网卡，仍然受限于 PCIe uncacheable 的诸多限制，无法实现真正的分布式共享内存。

扩展性差：在异构计算场景下，大量 GPU、NPU 等智能设备都需要和 CPU 通信，主从架构难以高效扩展，无法形成设备间的高效"横向"数据交换。

为了打破这一瓶颈，UB 提出了一种对等架构。在 UB 的世界里，所有设备都是平等的，可以被看作是一个个内存块。任何设备都可以通过 Load/Store 这样的内存语义，像访问本地内存一样，直接访问其他设备的内存，而不需要对方 CPU 的干预。这使得数据路径可以完全绕过操作系统，实现零拷贝和微秒级的超低延迟。

这种对等架构带来了许多好处。例如，不同服务器的内存可以组成一个共享的内存池，一个计算密集的应用服务器上空闲的内存，可以被一个内存密集的应用服务器高效利用。各种异构的计算资源、存储资源也可以池化，根据应用的需求动态组合，提高了资源利用率，也减少了不必要的数据搬运。

总线与网络

要理解 UB 的设计哲学，就需要理解总线和网络的根本区别。当然，我们不应陷入抠概念的辩经，现代的总线（如 PCIe）也借鉴了网络的交换思想，但从设计目标和应用规模上看，它们的范式差异是显著的。

传统上，我们在一个"超节点"（例如一台服务器或一个机箱）范围内使用总线技术以追求极致性能；而在超节点之间，则使用网络技术以追求大规模扩展。这是两种完全不同的技术栈和编程抽象。

UB 的核心价值在于，它在架构和编程抽象上实现了统一。无论物理上是超节点内的高速电信号背板，还是超节点间的长距离光纤，UB 都为上层应用提供了统一的内存语义。

这意味着，UB 承认在底层的物理实现上，超节点内（更像总线）和超节点间（更像网络）的互联技术可以是不同的，但它通过一层统一的抽象，将这种物理差异向应用屏蔽了。这最终实现了"鱼与熊掌兼得"：既有总线级的编程简易度和高性能潜力，又具备网络级的超大规模扩展能力。

总线与网络的区别，并非对错之分，而是在不同尺度下的范式差异。正如牛顿力学在宏观低速世界中足够精确和简洁，而我们只有在接近光速或深入微观时才需要相对论和量子力学。长久以来，我们在'机箱内'这个宏观世界里安心使用总线这个经典范式，而在'数据中心'这个相对论尺度上则依赖网络。然而，AI 的 Scaling Law 如同一种新的观测工具，它将计算的需求推向了极致，让两个尺度之间的'裂痕'––即通信鸿沟––变得无法忽视。这正是 UB 诞生的历史必然性：我们需要一个能统一这两个尺度的新范式。

点击阅读更多

Back

牛芯基于UB协议，以IP筑牢生态根基

业务合作

添加产品

点击此处了解更多关于D&R的隐私政策