2月26日消息,在宣布开源MLA解码核FlashMLA以及DeepEP两款代码库后,DeepSeek在开源周的第三天宣布开放DeepGEMM代码库。
DeepSeek介绍,DeepGEMM是专为简洁高效的FP8通用矩阵乘法(GEMMs)而设计,它同时支持普通的和专家混合(MoE)分组的GEMM运算,为V3/R1训练和推理提供动力支持。该库使用CUDA编写,在安装过程中无需编译,通过在运行时使用轻量级即时编译模块来编译所有内核。
目前,DeepGEMM仅支持英伟达Hopper架构运算,为解决FP8张量核心累加不精确的问题,它采用了CUDA核心的两级累加(提升)方法。该代码库设计非常简洁,只有一个核心内核函数,代码量约为300行。
尽管其设计轻巧,DeepGEMM的性能在各种矩阵形状上与专家调优的库相匹配或超越。
DeepSeek团队在H800上使用NVCC 12.8测试了DeepSeek-V3/R1推理中可能使用的所有形状(包括预填充和解码,但没有张量并行)。
从测试结果来看,DeepGEMM计算性能最高可达1358 TFLOPS,内存宽带最高可达2668 GB/s。与基于CUTLASS 3.6的优化实现相比,可提速最高可达2.7倍。另外,分组GEMM(MoE模型)中连续性布局、掩码布局下可提速多达1.2倍。
另外,使用DeepGEMM需要的环境要求,包括:
* 必须支持Hopper架构的GPU,sm_90a
* Python 3.8及以上
* CUDA 12.3及以上(推荐12.8)
* PyTorch 2.1及以上
* CUTLASS 3.6及以上
- 启信宝2025奶茶趣味报告:奶茶企业5年激增140%,40万家共筑3500亿帝国
- 《黑神话:悟空》PS5国行版将于6月18日正式发售,建议零售价268元起
- 报告:2029年美国AI搜索广告支出将达260亿美元,占比13.6%
- 重塑内生安全体系 实现AI时代安全突围 ——2025北京网络安全大会(BCS)开幕
- 覆盖上百国家!启信慧眼全球供应链“风险地图”助力中企安全“出海”
- 门禁凭证技术进化简史:开启更加安全和便利的未来
- Google I/O 大会:科技盛宴,引领未来创新潮流
- 马蜂窝端午出行大数据:短途周边游是主流,非遗民俗关注度持续走高
- 微软裁员6000人原因揭晓 AI冲击首当其冲
- 腾讯音乐2025Q1业绩持续高质量增长:在线音乐服务收入达58亿元,同比增长15.9%
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。