移动云与浙大共同打造科研“超级计算平台”

从过去到现在,人们一直在追求更⾼的算⼒。

近些年,随着现代数据计算量和场景复杂度的不断提升,普通计算⼯具提供的算力远不足以支撑⽣物制药、⽓象预报、军事研究、基础科学研究等尖端领域的应用需求。

作为科技领域顶尖的计算力代表,⾼性能计算(简称 HPC)系统运行速度通常比最快的商用台式机、笔记本电脑或服务器系统快一百万倍以上,可以通过并行工作的强大处理器集群处理海量大数据,以极高的速度解决一些程序规模庞大、运算时间长以及数据量大的计算任务,逐渐成为企业、研究机构科技水平的重要指标。

作为科学研究前沿阵地和人才培养重地的高校,科研、教学、管理对HPC资源的需求也日益攀升。风口之下,如何评估⾼校算⼒服务现状?如何高质量推动算⼒平台建设?如何让⾼性能算⼒普惠师⽣⽤⼾?成为当今教育界的“时代之问”。

要找到问题的答案,不妨关注一下国内高校算⼒建设的标杆性案例。

浙江大学:打造算力革命“超强大脑”

2023年10月,教育部等六部门联合发布《算力基础设施高质量发展行动计划》,鼓励各类高等院校、职业院校积极运用算力平台为学校实习实验实训环境、平台和基地建设、转型发展及重大项目或课题的开发与创新提供支撑。

目前,清华大学、北京大学、上海交通大学、南京大学等高校都已建设自有的算力中心。从“基于经验”到“数据驱动”教学科研的数字化时代,HPC中心俨然成为众多一流大学的标配。

作为海内外均享有较高声誉的综合型、研究型高等学府,浙江大学(下称“浙大”)这所百年名校不仅在多个学科领域遥遥领先,更着眼于科技赋能,加快算力中心建设,在计算领域的研究和打造智慧校园的路上走在全国前列。

在今天的浙大校园里,智能教学环境、信息化校园应用管理、用科学计算进行虚拟仿真实验、训练AI模型都已司空见惯,这些应用场景背后都少不了高性能算力的支撑。

此前,浙大HPC集群为数十个中小型集群,各学院自行采购搭建小型计算平台,存在部分服务器裸硬件没有集群化,算力资源分散管理、忙闲不均、共享不畅等问题。由于缺乏校级平台统一管理全校计算资源,浙大在进行项目研究时,很难一次性调用大批量资源执行计算,可能就会导致科研成果产出效率“慢别人一拍”,长此以往将不利于学校提升科研水平。

此外,许多科研项⽬在进⾏⾼度复杂的模拟和计算时,既需要超算算⼒,⼜需要智算算⼒。长远来看,推动“超算+智算”融合发展势在必行。

为了进一步满足科研工作和智慧校园的发展需求,浙大计划建设一套高效、安全、可靠的智算超算专属云平台,进一步推进5G、云计算、大数据、物联网等新一代信息技术在教育领域的实际应用。

近期,浙大与中国移动在北京签署战略合作协议,在共建校园网络、共创5G技术、共筑开放实验室等合作基础上,双方还联合打造了全国首个校企合营模式算力中心——中国移动-浙江大学启真算力中心。

配图1.jpg

中国移动与浙江大学战略合作签约仪式

基于移动云技术底座,打造智算超算统一调度平台,高效整合高性能CPU、GPU以及国产AI芯片等硬件资源,为浙大提供面向科学研究的AI+HPC算力服务。

同时,通过九天人工智能平台开放,基于1600Gbps带宽的高速网络,浙大管理平台软硬件系统实现对通用、超算、智算等算力的统一管理、调度,以及数据模型训练到模型推理、验证的无缝衔接,满足各学科领域对于大规模数据处理和科学计算的需求。

据统计,项目整体建成后,浙大人工智能算力将达711Pflops(每秒71.1亿亿次浮点运算能力水平),达到全国高校头部水平。后续,浙大还将接入中国移动“百川”算力并网平台,实现全校算力资源的统一调度和算力服务普及、普惠,让算力服务充分支撑教学和科研。

“智算一朵云”夯实科研创新数字基座

目前,高校的HPC平台,包括软硬件部分,基本是和国内厂商合作共建完成的,有经验的云服务商,能帮助学校有效降低建设成本、减少资源浪费、提高科研效能等。

移动云作为HPC建设的早期参与者,面对国内高校在人工智能教学、科研、实训等环境搭建过程中普遍面临的硬件使用成本高、模型部署困难、训练数据难获取、Deadline算力资源不足等痛点,已迭代出了系统完善、安全可靠的高校超算智算云解决方案——通过统一云管平台、HPC集群管理调度系统、AI智算平台,全方位支撑高校管理平台软硬件系统,成为科研创新的底座。

在服务保障上,移动云为高校提供属地化的服务模式,除了前期的规划建设和运营,算力中心建设后,还会提供“远程+驻场运维”的专人专职维护来保障业务系统的持续稳定,让高校客户能够专注于业务、专注科研。目前,这一解决方案已在诸多高校中落地应用,为学校的高质量发展注入新动能。

配图2.jpg

高效易用的调度管理平台

可以肯定的是,中国高校“卷”高性能计算平台的热潮还将继续,随着教育⾏业数字化发展进程不断演进,高性能算力基础设施的建设、算力供给能力的提升、算力普惠力度的加大,已成必然之势。

基于多年的经验沉淀,移动云已构成全栈自主可控、行业领先的智算中心架构,形成了“N+X”智算资源布局体系,实现多种能力输出,满足生命科学、材料设计、气象预测、计算物理等各类科研业务场景在云上的数据开发、存储以及模型训练和推理需求。

除此之外,移动云正逐步加强智算基础设施建设,打造全栈智算产品体系。通过提供高性能智算集群、裸金属、GPU云主机等 IaaS层基础设施,移动云打造了具有特色的PaaS服务和模型即服务(MaaS)能力,同时依托九天智算平台能力释放澎湃智算算力,深入融合行业解决方法,探索大模型落地,实现已有服务规模化落地。

面向未来,算力平台作为“数字新基建”,在高校将发挥越来越大的作用,因此高校算力建设的持续投入很关键。除了学科科研之外,高校还需要更多地探索、发展计算技术,推动算力建设和数字能力的持续发展,以便更好地服务于自身的数字化转型。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )