寒武纪发布新品MLU370-X8 多芯互联技术支持8卡并行

近日,寒武纪发布了训练卡新品——MLU370-X8,这款芯片主要面向训练任务,搭载双芯片四芯粒思元370,集成寒武纪MLU-Link™多芯互联技术。值得注意的是,在业界应用广泛的YOLOv3、Transformer等训练任务中, 8卡计算系统的并行性能平均达到350W RTX GPU的155%。

据官方介绍显示,MLU370-X8智能加速卡支持MLU-Link™多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍,可高效执行多芯多卡训练和分布式推理任务。

寒武纪发布新品MLU370-X8 多芯互联技术支持8卡并行

​MLU370-X8 MLU-Link 4卡桥接拓扑

在Cambricon NeuWare SDK上实测,在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和Cambricon NeuWare CNCL通讯库的优化,在8卡环境下达到更优的并行加速比。

长期以来,寒武纪为用户提供了覆盖不同场景、不同算力规模的全系列产品,建立起覆盖云边端、训练、推理的完整产品矩阵,同时利用平台级基础系统软件 Cambricon Neuware,连接全线产品,由点及面,实现了“训推一体、端云融合”。

相关资料显示,在全球芯片竞争加剧以及严重缺货的大环境下,国内芯片半导体行业正式驶入快车道。据相关数据统计,仅在2020年,中国就新增超过2万家半导体相关企业,增速达到32%。在芯片设计领域,截至去年底,国内已有超过2000家芯片设计公司。

增速喜人的背后,却是无奈的现实,2000余家芯片设计公司中,绝大多数实力单薄,技术能力储备不足,产品和市场高度趋同,创造的利润甚至不如一颗大白菜。如此现象只能造成低端市场的不断内卷。而在高端市场中,能够设计出CPU、GPU、DSP和FPGA等高性能数字芯片的企业依然凤毛麟角。

所以,寒武纪的高端数字芯片产品,就成为了芯片市场的重要补充,稀缺度较高。目前,寒武纪的客户已经覆盖大量头部服务器厂商、云计算客户,辐射金融、交通、能源等主要应用领域。新产品推出后可以顺利进入客户选型,市场端竞争压力较小。寒武纪产品一旦实现技术突破,市场侧的突破将十分轻松。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )