2025年8月27日,华为云在第四届828 B2B企业节开幕式上宣布,其Tokens服务正式全面接入CloudMatrix384超节点。通过xDeepServe架构的关键创新,该服务在单芯片上实现了最高2400TPS(每秒处理令牌数)和50ms TPOT(每次输出时间)的高吞吐与低延迟性能,显著超越当前业界平均水平。
近年来,中国人工智能算力需求呈现爆发式增长。数据显示,自2024年初至2025年6月底,日均Token消耗量从1000亿激增至30万亿,增长超300倍。这一趋势对算力基础设施提出了更高要求。华为云于今年3月推出基于MaaS(模型即服务)的Tokens服务,提供在线、进线、离线及尊享等多种服务类型,以适应不同应用场景在性能和响应速度方面的多样化需求。
本次升级的核心在于将Tokens服务与CloudMatrix384超节点深度集成。CloudMatrix384采用全新计算架构,从硬件到软件实现了系统级创新。其优势不仅体现在单点性能提升,更在于全栈技术协同,包括CANN昇腾硬件使能、EMS弹性内存存储以及xDeepServe分布式推理框架的有机结合。其中,EMS技术有效突破“AI内存墙”,实现“以存强算”,充分释放芯片算力潜力。
xDeepServe作为原生服务框架,采用Transformerless极致分离架构,将混合专家模型(MoE)拆分为Attention、FFN和Expert三个可独立伸缩的微模块。这种“积木化”处理方式使得任务能够分布到多个NPU上并行执行,再通过微秒级XCCL通信库与自研推理引擎FlowServe重新整合,形成高吞吐的大语言模型服务流水线。这一架构使单卡吞吐性能从600 tokens/s提升至2400 tokens/s,涨幅达300%。
在通信层面,XCCL库充分发挥CloudMatrix384的UB互联架构潜力,为模块间的高效数据交换提供高带宽与低延迟支持。FlowServe则将整个系统划分为完全自治的DP小组,每个小组具备独立的Tokenizer、执行器和缓存机制,有效避免千卡并发场景下的性能拥堵。
目前,华为云MaaS平台已支持包括DeepSeek、Kimi、Qwen、PanGu等在内的多种主流大模型,以及Dify、扣子等Agent开发平台。通过在模型量化、算子融合、通算并行等方面的持续优化,华为云在文生图、文生视频等任务中实现了显著于业界平均水平的性能提升,部分场景达到友商的2至3.5倍。
在应用生态方面,华为云已与超100家行业伙伴合作,推动AI技术在内容创作、智能运维、智慧办公等领域的落地。典型应用如今日人才数智员工解决方案、方寸无忧智慧公文系统等,均体现出Tokens服务在提升处理效率与用户体验方面的实际价值。
综上所述,华为云通过系统级创新与全栈技术整合,不断推动算力性能边界。Tokens服务与CloudMatrix384及xDeepServe架构的深度融合,标志着其在高效能计算领域的重要进展,为人工智能大规模商业化应用提供了坚实支撑。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。