文 | 智能相对论
作者 | 叶远风
大模型催生了无数的创新机会,而大模型应用要如何更好地实现落地、服务好企业和个人,就成为广大开发者能否有效抓住这波时代红利的关键。
于是,来自计算产业生态的支持动作,对开发者而言就变得尤为重要。
5月23-24日,鲲鹏昇腾开发者大会2025(KADC2025)将于北京中关村国际创新中心举办,作为华为面向开发者一年一度的技术盛典,大会在直接推动开发者技术能力提升、产业价值落地等方面有诸多布局。
而值得关注的是,19日鲲鹏昇腾创享周上,昇腾方面的首场直播,就聚焦在昇腾超节点计算集群硬件架构,显示出昇腾对这一架构的重视。
对开发者而言,做好大模型,MoE已经必选项。现在,能够更好支撑MoE架构的基础设施方案“最优解”也已经出现。
MoE成必选项,但“作坊式”生产成隐忧
大模型领域,MoE架构的优势已经十分明显。
不同的任务分成一个个“专家”模型去处理,每个专家只需处理自己最擅长的领域,无论在效率还是专业能力,MoE架构都奠定了其作为下一阶段大模型发展主要技术路线的地位。
而从MoE的技术特点可以粗略看出,这是一个需要“拆分”然后分工合作的架构,其技术演化路线,也基本沿着这个方向走——越拆越细。
比如最早的MoE架构,其专家数量可能只有十几个,后来又进一步发展到几十个、上百个,把更多的任务分配到更小的专家上去,“专才”越来越专,大模型的效果会变得更好,处理效率也会更高。
然而,虽然MoE架构的优化一直在提升,专家的数量不断增加,例如DeepSeek的R1已经有288个专家,但这种增长也正在面临额外的通信难题。
也即,当MoE架构中被安排的的专家越来越多,专家和专家之间的通信会越来越多,对计算协同能力的要求也越来越高。更多的计算卡集合到了一起形成大量节点,要实现有机整合、要把大量的专家分配到不同卡上来做好模型处理,都存在技术挑战。
显然,由服务器、存储、网络等设备堆叠而成的传统集群,在这方面正面临瓶颈,在大规模训练时,资源利用率低、故障频发,严重阻碍着AI发展和创新。
比如,传统模式往往是在不同的节点之间进行互相通信,虽然最好的数据已经能够做到双向800Gb的带宽传输,但在快速增加的专家数量面前,已经远远不够看了。
这就好比,MoE架构不断优化后已经能够请来一大堆专家帮忙进行“生产”,但开发者能够提供给它的生产环境,却还只是个“小作坊”——协同差、流程效率低、拥挤不堪,显然已经无法满足时代的需要,除了限制既有MoE能力的发挥,在专家数量的进一步提升上也设置了无形的障碍。
这时候,昇腾超节点的出现,就带来了“生产模式”的改变。
昇腾超节点,为MoE建设一座“超级工厂”
通过高速总线连接多颗 NPU,突破互联瓶颈,卡和卡之间通过高速互联实现了超高的互联网通信,最终,一个多节点组成的集群能够像一台计算机一样紧密协同工作,这就是昇腾超节点在做的。
需要说明的是,昇腾超节点是通用架构,只不过它很亲和MoE的多专家模式。
目前,昇腾超节点解决方案已经推出了多款训练和推理产品,基于架构创新来满足模型训练和推理对低时延,大带宽,长稳可靠的要求。
这就好比,它为MoE的众多专家们,建设了一座提供高效协同生产环境的超级工厂,再多的专家参与到大模型的“能力生产”中,也能在“超级工厂”健全的流程和生产设备支撑下,井然有序、高效率完成大模型能力的“生产作业”。
也由此,昇腾超节点正成为MoE模型的最佳选择。
1、解决“生产过程”沟通协作难题
MoE的专家并行需频繁执行机间all-to-all通信,导致网络拥塞和延迟上升。例如,千亿级MoE模型的训练中,通信开销占总耗时的40%以上。而昇腾超节点主要是通过架构创新来实现更高更大的带宽、更高的性能,提升训练效率、推理吞吐能力。
具体而言,超节点内的高速互联能力让跨节点通信带宽提升15倍,通信时延从2μs降至0.2μs,下降10倍,大幅降低整体通信占比,让计算少等待、不等待。有数据显示,相较传统集群,整体训练效率、推理吞吐可提升3倍。
由此,再多的MoE专家细分也能够支撑,像是提供了可以弹性容纳更多专家的“流水线”。目前, Atlas 900昇腾384超节点可实现384颗NPU点到点超大带宽互联,成为业界唯一支持DeepSeek V3/R1在一个超节点域内即可完成所有的专家并行(EP)的方案。
2、提升“生产资源”利用率
超级工厂的流水线相对于小作坊生产的另一重价值是能够实现更有效率的生产资源利用。
昇腾超节点相对于传统集群的优势之一也在于此,能够依据MoE结构中专家分布以及每层的计算需求,精细地将模型切分至不同节点,更合理分配资源,提高整体资源利用率。
而且,当多个专家一起工作时,昇腾超节点同时可运行多种并行策略并动态调整,针对实时的负载情况精准分配计算资源,不堵塞、每个节点都被充分利用,加速训练/推理进程。
不仅让专家“人尽其用”,也让节点资源“物尽其用”。
3、处理繁杂但重要的“琐碎生产事项”
在分布式计算场景下,大模型训练和推理过程存在大量并行计算,带来频繁的参数同步和梯度交换,需要传输大量小尺寸数据包。在MoE架构下,随着模型参数量持续增长,小包通信需求将进一步加剧。
而偏偏,这类通信对网络时延、抖动和丢包率极其敏感,直接影响训练/推理效率。
对应实体世界,这就相当于生产过程中总是给出了大量非常琐碎的沟通和任务,粗犷的“小作坊”生产显然很难有效应对,时常“丢三落四”,必须依靠“超级工厂”的标准化流程与规则来托举。
昇腾超节点做到了全局内存统一编址,具备更高效的内存语义通信能力,实现了更低时延指令级内存语义通信,从而能够满足大模型训练/推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。
规则、一体化平台建立起来,就不怕工作碎而多了。
4、用减少“停机”来作为重要的生产效率来源
现实中的生产小作坊由于制度不完善,经常在运转中碰到各种难题,停工停业。作为对比,超级工厂几乎不“停机”就带来的直接的生产效率。
诚然,大模型训练或推理一定会面临某些故障,这时候,能够降低故障频次、降低恢复时长,就成为训练/推理效率的重要来源。昇腾超节点拥有多平面的链路设计、链路故障秒级切换、算子级重传等可靠性能力,如Atlas 900昇腾384超节点产品的平均无故障运行时长从几小时提升到几天,让大模型训练变的更快、更简单。
而且,在出现故障后,昇腾超节点也支持更敏捷的断点续训,故障恢复时长能从传统集群的几小时级降低至30分钟。
“流水线”少停,停后快速启动,这就是直接的效率。
一座“超级工厂”的建成,只能是“产业资源”的集中展现
现实中的超级工厂的建设对一个地方产业资源有着极高的要求,对应地,为MoE的专家们建设一座数字世界的超级工厂,也需要多方面技术力量的支撑。
昇腾超节点是整个架构层面的创新,其采用总线互联的技术,实现了统一内存编辑、统一内存语义通信,不仅有高速通信,也有高速存储读取等,这些,都离不开华为在计算、存储、网络等方面长期以来优势的集成,是优势技术资源积淀与运用的结果。
所以,昇腾超节点不是简单的集群模式创新就能实现的,与MoE架构的匹配亲和,是这个时代最尖端的基础设施与模型架构的碰撞、对话。
不仅如此,目前昇腾超节点还联合昇腾其他解决方案进一步强化大模型支撑能力。
例如,随着模型越来越大,并行的情况也会越来越多,把数据切分的越来越细、把整个模型切分的越来越细,除了通过超节点的架构训练出更强性能的模型,昇腾还在通过大EP和集成部署的推理系统来满足极致的工程创新、来满足大模型所有节点的部署。
如此,这座为MoE专家们准备的“超级工厂”在生产调度能力上也正在变得越来越丰富。
结语
在复杂的形势下,对多节点集群能力的挖掘,实际上也一定程度解决了算力供应链稳定性难题。毕竟,“立足中国,只有基于实际可获得的基础硬件制造工艺打造的算力才是长期可持续的,否则是不可持续的。”
很庆幸,有了昇腾超节点这类技术积淀之上的架构创新,可持续的基础设施正在被有效建立起来,推动MoE在本土发展壮大,让本土大模型获得更大的话语权。
在全面智能化战略(All Intelligence)下,华为正在进行着计算、存储和网络技术协同创新,昇腾超节点之外,本次鲲鹏昇腾开发者大会料将呈现更多计算产业趋势、前沿技术、行业创新案例和优秀开发者实践,值得关注与参与。
*本文图片均来源于网络
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。