当AI大模型参数规模突破万亿级,决定算力效率的关键正从单卡性能转向集群网络互联。而在万卡级计算集群中,高性能网络技术的缺席,正制约着国产AI产业规模化发展。
在国家“打造智能经济新形态”战略部署下,算力新基建赛道迎来突破——中科曙光推出首款国产400G原生无损RDMA高速网络——scaleFabric。据悉,该产品对标国际顶尖同类产品技术水平,可适配超大规模计算基础设施网络需求,有效填补国产集群“高速互联”技术空白。
算力规模战背后的隐形门槛
2026年政府工作报告围绕“打造智能经济新形态”战略,明确提出“实施超大规模智算集群、算电协同等新基建工程”。我国人工智能算力基础设施加速迈向规模化发展新阶段。
然而,随着AI集群迈向万卡乃至十万卡时代,网络性能已成为算力释放的最大变量。在大规模分布式训练中,数万块加速卡需频繁同步梯度数据,采用All-Reduce等通信模式,任何微小的网络延迟或丢包,都会导致高性能计算资源陷入闲置等待。
有业内人士指出,千卡级人工智能训练中通信时间占比可达30%以上,在超大规模模型或采用复杂并行策略(如张量并行、流水线并行等)的训练场景,通信占比甚至达到50%至70%,网络已成为制约算力释放的“隐形门槛”。
值得注意的是,目前国内传统以太网仍很难满足低延迟、高吞吐的严苛需求;进口高速网络虽性能卓越,却面临成本高昂、供货受限的双重困境。在算力即核心生产力的今天,高速互联技术的自主可控,已成为关乎智算基建安全与发展质量的战略命题。
国产原生无损RDMA网络问世
今年初,一项关键突破在国家超算互联网郑州核心节点悄然落地:3套国产万卡超集群同步上线试运行,承载起国家级AI算力网络基座的重任。而支撑这一集群高效运转的核心,正是中科曙光全栈自研的原生RDMA高速网络——scaleFabric。
近日,曙光scaleFabric高速网络产品正式发布,并在性能、可靠性、扩展性方面刷新国产纪录。据悉,scaleFabric基于InfiniBand的原生高端RDMA技术打造,可实现端到端时延低于1微秒,转发时延仅260ns。
此外,相较传统网络互联方案,原生RDMA采用基于信用的精准流控机制,从根源上避免了数据丢包,保障真正的无损传输,不必依赖复杂的拥塞控制算法和人工调优。用户也无需组建专门团队调试水线参数。这种“即插即用”方案大幅降低了集群组网复杂度与运维成本。
中国工程院院士邬贺铨指出,“scaleFabric是国内首款全栈自主研发的400G原生RDMA高速网络系统,性能对标国际主流,且经规模化实践验证,补齐了国产高速网络的短板。”
开辟AI算力规模战前沿阵地
在“智能经济”战略部署中,万卡级算力基础设施已成为国产AI的滩头阵地。原生RDMA的自研成果,代表着国内超大规模集群组网能力进一步提升,真正具备了突破海外技术垄断,向万卡、十万卡自主扩展的底气。
根据工信部统计数据,在算力设施方面,2025年我国已建成万卡智算集群42个,智能算力规模超过1590EFLOPS。今年将落地50+万卡集群,3万卡集群同比增长233%,10万卡集群实现从0到1的突破。
在这场大算力竞速中,国产原生RDMA为集群扩展注入了确定性因素。据悉,在国家超算互联网核心节点,基于scaleFabric网络的3万卡计算集群持续稳定运行,已累计为超万名用户提供算力服务,并且网络总体成本降低30%,未来可将集群规模轻松扩展至10万卡以上。
目前,scaleFabric网络架构已覆盖从科学计算到人工智能的多元化场景需求。无论是万亿参数模型训练、高通量推理,还是金融风控、AI for Science,均可充分调动起集群极致算力。
从技术层的自研突破到规模化落地验证,国产原生RDMA不仅为当下万卡集群的建设提供了可靠选择,更以自主可控的技术底座为更大规模智算系统演进铺就了一条“高速路”。
扫一扫在手机上查看当前页面
