中国工程院院士郑纬民：超算完全可用于大模型训练且极具成本优势

12月5日消息经国务院批准，由科技部和河南省政府共同主办，以“5G变革共绘未来”为主题的2023世界5G大会将于12月6日至8日在河南省郑州市郑州国际会展中心举行。

围绕“强基韧链与引领带动”、“赋能产业高质量发展”，2023世界5G大会设置12个平行论坛，助力全球顶尖5G产业合作和资源整合。在世界5G大会正式开幕前夕，以“融合创新提升价值空间”为主题的“Tech Talk 2023 创新技术论坛”在今天率先拉开帷幕。

论坛期间，中国工程院院士、清华大学教授郑纬民院士应邀作了题为《支持大模型训练的三种算力系统》的主题演讲。郑纬民院士指出，目前支持大模型训练的有三种算力系统，分别为基于英伟达公司的GPU系统，基于国产AI芯片的系统，以及基于超级计算机的系统，三种算力系统各有优劣。

解决10大软件难题：国产AI芯片破局之路

郑纬民表示，英伟达GPU系统的优点是硬件性能好，生态心态也比较完善，因为大家都喜欢用；但问题在于中美博弈所引发的禁售风险；同时，英伟达GPU产品价格高，价格暴涨的同时还一卡难求。当然，这也给国产AI芯片一个难得的发展机遇，目前国内已经有30多家公司推出了国产芯片，“但用户不太喜欢用，核心问题就是生态不好。”

在郑纬民看来，如果国产AI芯片硬件达到国外芯片的60%性能，只要能把软件和生态做好，用户也是满意的，“如果软件和生态没做好，即便硬件性能再强，照样没人用。”

郑纬民总结了十大关键软件技术，分别是编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统等问题。“如果把这些问题解决好，即使只有国外芯片60%的性能，国产AI卡也会大受欢迎。”当然，郑纬民也希望国内广大用户尽可能采用国产AI芯片，以用促建，以用促研，不断的给予正向反馈。

软硬协同设计：国产超算完全可以支持大模型训练

郑纬民指出，不止于GPU这种算力形态，超级计算机也完全可以用于支持大模型训练，但需要从源头做好软硬件协同设计。

目前，我国超算水平已经处于国际第一梯队，有14个国家一级超算中心，另外还有不少由地方和行业建设运营的超算中心。这些超算中心在科学计算上做得很不错，发挥了很大的作用，但是部分超算中心的算力利用率并不饱和，完全也可以用这些机器来做大模型训练。

“但利用超算来进行大模型训练，更要注重软硬件协同设计。硬件发展很快，过去一台机器，基本是CPU+内存+硬盘就可以，但是现在计算部件不只是简单的CPU，还有很多新的器件出现；软件方面，不论是人工智能应用软件，还是基于图数据的图计算应用，以及大数据应用，软件已和过去不一样，如何将软件和硬件更好协同起来非常重要。”

以郑纬民院士团队开发的“八卦炉”大模型为例，通过设计和优化，依托超算算力资源完全可以达到英伟达GPU平台的性能。除此之外，郑纬民院士团队目前已经把LLaMA大模型在超算上成功运行，国内的百川大模型等也已经成功运行，而且成本只需要英伟达平台的六分之一！

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

中国工程院院士郑纬民：超算完全可用于大模型训练 且极具成本优势

下一篇

中国工程院院士郑纬民：超算完全可用于大模型训练且极具成本优势