挑战英伟达垄断!凌波智芯李文信:以“无链接”RoCE架构破局AI算力互联

来源:爱集微 #创芯海门# #凌波智芯#
3289

5月28日,第三届“创芯海门”发展大会在上海张江科学会堂盛大启幕。作为大会的核心亮点之一,“芯力量”科技成果转化路演【走进海门】活动成功举办。在路演活动中,凌波智芯(常州)科技有限公司董事长李文信发表了《AI智能网卡芯片,领航国产算网新生态》的主题演讲。他敏锐地指出,未来AI产业正在经历深刻的范式转换——正从“算力受限”大步向“连接受限”转变。在GPU性能持续提升、算力规模不断扩张的同时,一个长期隐藏在幕后却日益致命的瓶颈正在浮出水面——网络互联能力正逐渐成为影响AI系统效率的核心因素。

凌波智芯(常州)科技有限公司董事长李文信

李文信以当前主流架构为例深度剖析了这一痛点:目前单机内部GPU之间主要通过英伟达NVLink实现互联,带宽可达1.8TB/s;而跨服务器通信所依赖的Scale-Out网络,即便进入800G时代,其带宽仍与机内通信存在着难以逾越的数量级差距。随着集群规模从数千张扩展到数万甚至十万张,这种差距被无情地进一步放大。李文信用了一个极具冲击力的比喻揭开了算力焦虑的真相:“这就像买了10万辆法拉利,让它们跑早高峰。车再好,路堵了,全是白搭。” 他指出,当前一个万卡集群的实际效率往往要打5-6折,相当于每天有4000到5000张GPU卡在闲置空等数据。未来十万卡时代真正需要解决的,不再仅仅是如何部署更多GPU,更重要的是如何打破网络拥塞,让这些GPU高效协同工作。

目前,在AI算力互联领域主要存在两条技术路线。一条是以英伟达InfiniBand(IB)为代表的高性能网络方案,其凭借低时延、高带宽长期占据高端AI训练市场,但不仅成本极其高昂,更依靠20多年的积累筑起了一座用封闭协议和生态构筑的“高墙城堡”。另一条则是基于标准以太网的RoCE路线,其凭借开放生态和成本优势受到越来越多云厂商关注,却始终面临有效带宽利用率不足的问题。面对十万卡级集群爆发的互联需求,凌波智芯祭出了破局之刃——在国内首创推出“无链接”RoCE的AI网卡架构,正面挑战英伟达在算力互联领域长达20多年的垄断壁垒。李文信深知,作为后来者,盲目在英伟达的墙上“打洞”模仿是强者的游戏,必须另辟蹊径,走一条全新的底层范式之路。

李文信将这一颠覆性的技术思路,生动地类比为互联网从“拨号时代”向“宽带时代”的演进。目前主流AI网卡采用典型的“有链接”架构,每次GPU通信都需要建立链接并维护状态。在十万卡规模下,网卡会陷入“建链、保活、查表、销毁”的风暴中,导致800G的物理带宽只能发挥约60%的有效带宽。而凌波智芯首创的“无链接”架构,对发往同一目的地的GPU数据通信请求只建立一个链接,将数据传输与连接状态彻底解绑。该架构完全基于RoCEv2协议,无需修改上层应用,可直接使用标准以太网交换机,从根本上消除了“链接爆炸”难题。配合凌波智芯自研的HP4流控与SSR重传算法,网卡的链接上下文硬件开销骤降90%,并发数据请求提升5倍,重传时延更是大幅降低96%。这不仅是工程技术的优化,更是底层互联思维范式的越级跃迁。

在实际商业落地中,这一新架构交出了极为硬核的成绩单。李文信举例说明,在极度考验系统吞吐的训练场景下,凌波智芯的“Lingbo 800G AI网卡+RoCEv2”组网方案,可实现万卡集群组网成本大幅下降50%,并做到网络吞吐和传输效率与InfiniBand完全持平。不仅如此,基于该架构即将推出的400G AI网卡更是实现了All-Reduce时间降低59%,网卡吞吐提升63%,组网成本降低80%——以万卡集群为例,仅交换机成本就能比IB方案节省约3亿元人民币。该方案为客户预留了10万卡级的未来平滑扩容能力,以全栈自研和开放生态,真正实现了底层基础设施的自主可控,彻底拔除供应链安全隐患。与市面上其他国产厂商不同,凌波智芯拒绝做一条简单的替代路径,而是坚定走“做得和别人不一样,且做得更好”的弯道超车路线。

这一底层颠覆的背后,是李文信作为一位90后科学家的两次“归零”壮举。第一次,他毅然从纯理论研究转向系统研究,带领团队实现了天津大学在SIGCOMM和NSDI两大国际计算机网络顶会上的“零的突破”;第二次,在创业初期,他果断推翻了模仿英伟达的第一版100G FPGA网卡方案,重新追问技术初心,最终蹚出了“无链接”架构这条前人未至的创新之路。事实上,任何颠覆性创新在早期往往都是不被主流理解的“非共识”,正如李飞飞顶住清一色的质疑力推ImageNet引爆深度学习革命,黄仁勋忍受多年亏损力排众议打造CUDA生态,凌波智芯在无人区里的探索,同样源自创始人对技术方向的深刻洞察与非凡定力。

“我们不复制英伟达的路。中国科学家,也能在AI算力互联领域,插一面自己的旗。”李文信笃定地表示。中国AI产业的发展决不能永远停留在跟随和复制阶段,在GPU芯片之外,算力互联同样亟需原创技术和自主创新的强力支撑。在演讲的最后,李文信留下了一句深情的期许:“二十年前,我们以为算力是燃料,后来才发现它是血液——而今天宝贵的血液流淌经过的,正是当年我们打通的血管。” 随着十万卡时代加速临近,在AI算力已成为国家核心战略资源的今天,凌波智芯正以其独创的“无链接RoCE”AI网卡为利刃,为国产算力全面松绑,彻底打通AI时代数据流动的最强“大动脉”。

责编: 爱集微
来源:爱集微 #创芯海门# #凌波智芯#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...