阿里云基础网络技术5 篇论文入选全球网络顶会NSDI 2025

近日,在全球顶级网络系统会议NSDI 2025上,阿里云基础网络技术5篇论文被主会录用,论文研究成果涵盖多个领域,包括面向大模型训练的网络故障诊断、大模型训练网络仿真、容器网络性能问题诊断、基于AI推理的CDN流控算法智能选择,以及GPU解耦型推理场景的性能优化等五个重要领域。多项突破性成果的集中入选,标志着阿里云在人工智能时代的计算机网络和系统领域持续引领前沿技术。

1.jpg

NSDI是美国高等计算系统协会 (USENIX协会) 举办的顶级学术会议,与ACM SIGCOMM并列为计算机网络和系统研究领域最高水平的两大会议,被中国计算机学会(CCF)评为A类推荐会议,Core Conference Ranking也给予其A级别评价,代表了最前沿的科研水平和影响力。此次会议共收到666篇投稿,录用83篇论文,录取率不到12.5%,是NSDI历史录取率最低一次。

在此次入选的文章中,阿里云主创论文《Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production》总结了近一年多以来阿里云在支持大模型训练过程中的实践与经验。在研究中,阿里云网络、灵骏、PAI等技术共同打造了端+网+任务协同的系统性智算网络诊断体系,将网络故障诊断耗时降低97%,顺利支持通义千问完成了多次模型版本的训练发布。

20250508410123.jpg

传统的云计算诊断系统是针对通用计算场景设计的,在大模型场景下并不完全适用。由于大模型训练存在很多独特的执行特性,如大范围的集合通信等,会导致诸多经典诊断手段误报,无法精准完成问题定位。虽然头部大模型公司有针对大模型训练场景专门设计的故障诊断系统,但相对来说,方案对于提供公有云服务的解决方案来说有所局限。

3.jpg

(图:Aegis与已有诊断系统对比与演进)

因此,在论文研究中,Aegis选择了一条增强已有体系+训练过程感知的两阶段演进路线。在增强已有体系阶段(Phase-1),Aegis将大量人工定位问题的经验进行梳理总结,形成了一套在线日志分析+定点隔离诊断的问题定位体系,帮助降低了71%的任务中断问题定位耗时。在训练过程感知阶段(Phase-2),Aegis找到了集合通信库这一桥接计算过程和通信过程的通用组件,并进行针对性的诊断能力增强,实现了基于集合通信信息的全面在线的故障诊断,进一步降低了91%的问题定位耗时。

在诊断训练任务失败这类问题之外,Aegis还进一步覆盖了性能回退场景的问题定位以及交付前问题的前置检查。最终模型训练过程中的性能回退比例以及任务重启次数都得到了大幅降低,全方位地为阿里云上的大模型训练任务的稳定运行保驾护航。

4.jpg

(图:阿里云基础网络技术5篇论文录入全球网络顶会NSDI2025)

阿里云智能研发副总裁、基础网络负责人蔡德忠表示:“从智算网络集群异常诊断到大模型训练仿真系统,从CDN智能控制到云原生网络创新,阿里云持续将产业级技术难题和学术创新融合,为AI大模型时代下云计算基础设施发展做出贡献。”

5.jpg

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2025-05-08
阿里云基础网络技术5 篇论文入选全球网络顶会NSDI 2025
近日,在全球顶级网络系统会议NSDI 2025上,阿里云基础网络技术5篇论文被主会录用,论文研究成果涵盖多个领域,包括面向大模型训练的网络故障诊断、大模型训练网络仿真、容器网络性能问题诊断、基于AI推理的CDN流控算法智能选择,以及GPU解耦型推理场景的性能优化等五个重要领域。多项突破性成果的集中入选,标志着阿里云在人工智能时代的计算机网络和系统领域持续引领前沿技术。

长按扫码 阅读全文