从智慧计算的点、线、面,读懂浪潮AI的进化轨迹

原标题:从智慧计算的点、线、面,读懂浪潮AI的进化轨迹

抽象派画家康定斯基曾这样形容艺术:用点线面这样最基本的语言单位,来表达丰富的内涵,赋予艺术以超凡的精神。

之所以想到这个略显抽象的描述,是觉得艺术的表达与科技产业的构建有着相似的逻辑与内核:都是通过一些具象的符号来彼此交互、牵引、联动,最终呈现出大到人类艺术文明,小到技术进步的完整过程。

在这个ICT技术爆炸、智能世界创生的时代,涌现出了许许多多的符号,比如5G、AI、云计算、IoT、HPC等一系列技术名词,亦或是新基建、数智化、AI产业化等等趋势性的表达。到底智能世界的“魂”是什么?也就成了大众以及每一家企业、每一个行业在变革风暴来临时,渴望率先抓住的本质。

经过了漫长的基础设施与市场教育周期,我想,该有人来回答这个问题了。

前不久,浪潮的NF5488A5在国际权威基准测试MLPerf中打破了18项纪录,拿下了全球AI服务器最好成绩。再结合浪潮在疫情大背景下以53.5%的份额持续领跑AI服务器市场等表现,由它来诠释产业AI化的内涵与外延,似乎再合适不过。

欣赏一部艺术作品,需要对点线面等视觉符号的把握和理解,进而感受出美的真谛。同样,对浪潮勾勒出智慧计算产业形态的点线面体的理解,也成为读懂科技之魂、触达未来的一把钥匙。

点:AI服务器牵引的算力之源

“点”是聚神、点睛的精华之笔,就像一个光源,能让整部作品都发挥出靓丽的光彩。而ICT产业的进化史上,同样有一些重要的关键词,将整个行业推向了全新的发展阶段,比如传统计算时代的集成电路,又比如智能时代的AI服务器。

当我们审视当下如火如荼的AI产业化热潮,会发现其本质是对庞大数据的处理、训练、挖掘来完成产业端的价值创生。蓬勃发展的数字经济,也让提供澎湃算力的AI服务器,成为产学研用各界的共同呼唤。

《2019-2020中国人工智能计算力发展评估报告》显示,全球数据保有量将从2018年的33ZB增⻓到2025年 的175ZB。这一趋势必然导致计算资源水涨船高,实际上,算力基础设施早已是各个企业部署、发展AI的首要支出。

在火热的AI服务器市场中,浪潮的表现可谓一骑绝尘。2020年上半年,浪潮AI服务器销售额达到6.88亿美元,市场份额占比53.5%。从市场规模和产品能力来看,浪潮早已经进入了该领域的领导者象限。

在疫情期间获得这样的增长与业绩,究其原因,一方面源于浪潮本身在高性能计算领域的多年积累,市场根基稳固;另一方面则是踩准了AI计算的需求剧增,顺利完成了产品革新。

拿刚刚打破AI性能纪录的浪潮NF5488A5来说,就在Resnet50训练任务中创下AI性能纪录,以33.37分钟完成百万张图像训练任务的优秀成绩,成为单服务器性能成绩中的榜首。简单来说,就是做AI训练、AI推理都是(该比赛中)最快的服务器。

如果仅仅是去一场比赛、参与一次“跑分”,并不足以成为那把引燃需求的科技之火。浪潮的特别之处在于:

首先,打造产业标准的中国名片。作为业内首套衡量机器学习软硬件性能的通用基准,MLPerf的联盟成员包括谷歌、微软、Facebook、阿里巴巴、浪潮等企业,以及斯坦福、哈佛等高校。而与浪潮5488A5同场竞技的还有来自英特尔、英伟达、联想、广达、技嘉等头部厂商的参赛团队。在这样一个国际化测试中,浪潮NF5488A5的胜出在宣告中国计算实力的同时,进一步拉高了产业技术的实力上限,让产业界和企业客户能够获得给有效的参考标准,成为牵引服务器市场加速进化的中国力量。

其次,强调服务器的全面能力。MLPerf并不仅仅是单纯的跑分,在实际赛程中,设置了数据中心、边缘端等多种开放模型的多个测试,考验的是服务器在AI计算和实际应用场景的综合能力。浪潮NF5488A5问鼎的AI推理基准测试18项纪录中,就覆盖图像分类、自然语言理解、智能推荐、语音识别等场景,在Bert 自然语言理解推理任务中性能达26675条/秒,DLRM智能推荐每秒推理处理能力达210万条。

综合能力意味着,赢得比赛不是服务器厂商们在靠实验室技术“自娱自乐”,而是可以真实进入到语音识别、金融分析、智能客服等大众熟悉的AI应用场景中去的,能够切实提升AI开发与应用效率,加速产业AI化的进程。

最后也最值得注意的是,作为浪潮自研的新一代AI服务器,NF5488A5身上展现出了由软硬件协同带来的卓越性能——这是此次MLPerf全球竞赛中唯一可以在4U空间内支持8块安培架构A100 GPU实现NVLink高速互联的AI服务器。

极致性能并不来自于简单的堆叠,浪潮的综合技术能力被充分投掷在了AI服务器NF5488A5身上。比如在硬件层面,对CPU、GPU硬件性能进行精细校准和全面优化,以在AI推理时保持最优状态;软件层面,结合GPU硬件拓扑对多GPU的轮询调度优化,使单卡至多卡性能达到了近似线性扩展;算法层面,浪潮通过自研通道压缩算法成功实现了模型的极致性能优化,在精度无损的情况下性能提升近2倍。在可靠性上,通过深度优化系统结构设计,浪潮确保了设备能够在高温环境下稳定运行。

对计算需求的充分理解与支持,AI服务器产品的全面技术释放,从这个角度,我们就可以理解,浪潮为什么能俘获如此多企业客户的青睐,成为服务器市场上最强劲的上升力量了。

线:AI融入社会化大生产的桥梁

沿着服务器市场的变化轨迹,不难发现,AI正是进化的初衷和终点。

无论市场还是学术界都认为,AI与高性能计算是一对绝配CP。2019年中国HPC TOP100行业应用领域机器系统份额图中,榜单前十名的产品都具备了AI计算的能力。清华大学计算机系郑纬民教授也曾做出判断,认为“人工智能应用有望成为超算的主流应用”。

原因也很简单,深度神经网络规模越来越大,许多高精度模型的性能都依赖于超大规模数据集的训练。而人工智能的需求猛增,开启千亿规模的市场空间,也为服务器市场带来了全新机遇。

但二者并不是简单地拼凑在一起就能成功,还需要解决许多技术问题。

比如AI计算要用到分布式架构,需要在硬件底层将很多加速器芯片协同在一起工作,为传统数值计算设计的服务器并不适合AI;用经典计算服务器来运行AI算法,无法满足低功耗和性价比需求,不利于产业化等等。

让高性能计算与AI加速融合,成为服务器厂商在技术浪潮中拉开身位的关键赛点。

对于这一挑战,浪潮选择将其划分为三个赛程:

赛程一,全栈AI技术积累,厚积薄发拉开竞争身位。

早在2017年浪潮就发布“智慧计算”战略,聚焦打造全球领先的AI算力。经过数年耕耘,构建起了包括AI框架优化、AI开发管理和应用优化等全栈AI能力,AI专利贡献达到了中国前三。从硬到软的全栈解决方案能力,让浪潮能够驾驭来自产业端的多种AI计算需求。

赛程二, 系统级优化,实现1+1>2的性能提升。

AI计算需要系统化的能力来支撑,包括领先的硬件、强大的软件、高精度的算法等等,通过对其进行整体优化,进而能够实现一致、快速地部署,让浪潮在竞争中形成了区隔。

赛程三,高性价比方案,推动AI泛在化。

从生产、聚合、调度、释放算力这四大关键作业环节,浪潮都进行了创新,来支撑AI在边缘端、移动端、IoT端、车端等各个计算设备上的运行。比如在调度层面,通过从模型开发、训练、部署、测试、发布的全流程一站式高效交付,实现了300%的开发效率提升;在自动机器学习领域,浪潮AutoML Suite可实现企业级一站式模型自动构建,模型大小与计算量极致压缩。这些努力都有效降低了AI在产业落地的成本门槛。

从2017年押注AI,到如今成为AI计算与千行百业之间那道硬核的产业桥梁,浪潮迎来了瓜熟蒂落的收获季,也印证了那句话:凡事预则立不预则废。

面:智算中心的价值空间

当我们漫步AI产业之林,感受从无人驾驶、智能客服、智慧城市等等各个应用场景中所伸展出的一根根引线,就会发现,这一次转型升级浪潮之所以具有澎湃的生命力,是因为借助数字化基础设施,各行各业能够获得智能化动能,进而提升社会整体生产效率。

因此,能否提供适配垂直产业发展需求的算力基础设施,就显得尤为重要,自然也就不难读懂浪潮通过智算中心,从点到面推进AI产业化的核心逻辑。

在浪潮看来,企业渴望通过转型得到的智慧化能力,才是其拥抱AI的终极目标。因此,服务产业不能是单纯的业务数字化,除了增加额外的收集、存储、处理成本之外,并不能达到企业借助智能化提升效率、业务创新的本质诉求。

今年4月的浪潮云数据中心合作伙伴大会上,浪潮率先提出了“云、数、智”三者的融合发展,认为企业的IT基础架构正在从传统数据中心向智算中心转型,要实现业务“赋智”。

总结来说就是,超算中心主要服务于国家基础科研创新,而智算中心则致力于支撑产业界的智能创新,以算力驱动AI模型来对数据进行深加工,为企业和个人提供智能服务,进而推动产业升级和GDP高质量增长。

智算中心听起来很美,浪潮具体是怎么做的?想要回答这个问题,要找到源头,看看产业究竟遭遇了哪些问题。

1.算力需求定制化。各个行业的业务模式、生产体系、数字化需求都各不相同,不光需要硬件和技术,还需要针对性的场景化定制解决方案。为此,浪潮选择将智算中心打造成开放平台,吸引合作伙伴与行业解决方案提供商来共同耕耘,打造垂直行业大脑,完成了通用算力到行业个性化需求之间的衔接。

2.产品性能领先性。在“一力降十会”的AI计算领域,技术和产品性能的领先性,是市场首先看重的。目前,浪潮已经形成了完整齐备的融合架构产品线,为智算中心打造全球领先的算力机组,包括全球性能最强的 AGX-5,全球最高密度 AGX-2等。针对高并发训练推理集群进行了架构优化,推出N20X 智能网络加速方案,打造了业界功能最全的 AI 管理平台AIStation,以及可自动建模、自动调参的自动机器学习平台AutoML Suite。这些动作让浪潮足以支撑起国民级的计算业务。

比如在国有六大银行的服务器中,浪潮的占有率超过50%,每日服务数亿笔金融交易。还帮助中国乃至全球最大、最复杂的在线客票系统,将售票能力从每天1500万张提升至2000万张……类似案例还有很多,如果有人需要寻找一个具备顶尖产品性能的计算厂商,浪潮毫无疑问会是第一选择。

3.普惠AI可持续。对于浪潮而言,要实现普惠AI的目标,除了短期内“授人以鱼”,更需要借助智算中心的标准化开放和规模化集约效应,实现长期可持续的低成本智能服务,让AI像水电、像云计算一样成为新的社会基本公共服务,更快的普及到每个人、每个企业。

可以看到,在浪潮智算中心战略背后,正蕴藏着一场企业IT基础设施的春雷涌动。

体:面向未来的生态循环系统

由点到面的价值释放,足够托举起一个企业在数年间屹立于“浪潮之巅”。如果我们将眼光放到更远的未来,会忍不住思考一个问题,整个产业长期繁荣发展的动能从哪里来?

这并不是在无病呻吟。尽管AI已经进入了产业化高速发展阶段,但依然存在许多瓶颈:

比如标准的不统一。目前网络上开放的AI平台和各种能力百花齐放,AI的开发优化和部署仍然是一项技术复杂度很高的工作,需要一套通用、易用的AI开发和部署环境,降低这项工作的技术门槛。

再比如概念的泛滥。“追赶风口”的人多了,市面上各种各样的软硬件、解决方案、X算中心等等说法五花八门,由于缺乏共识和秩序,很可能会扰乱大众认知、透支信任,进而损害整个行业的形象。引领行业走向规范化,需要领头羊做出更多的努力。

为了搭建一个综合技术、产业、平台的生态循环系统,让数智化热潮的动能长久不息,浪潮也坚定地在生态方面做了许多投入。

对外,2019年,浪潮提出了元脑生态计划,集合了具备AI功能开发核心能力的左手伙伴和具备行业AI整体方案交付能力的右手伙伴,叠加上浪潮的AI最强算力平台,来助力产业AI化落地。比如与百度联合开发的ABC一体机,在钢表面质量检测系统中,2小时完成以前人工检测2、3天的工作量,钢材的缺陷识别准确率达到99%以上。为缓解人象冲突,浪潮与西双版纳国家级自然保护区管护局合作,在雨林内实时收集亚洲象的行为数据和行进轨迹,实现毫秒级精准辨识,准确度高达96%。在金融、电力、交通、智慧城市、石油石化等行业,浪潮的影响力逐步释放。

对内,浪潮积极推动国际化产业技术标准的建立,在全球系统性能评测标准组织SPEC中,发起并担任机器学习(Machine Learning)技术委员会主席。还与百度、Facebook、微软等共同开发OAM加速计算的开放规范(OCP Accelerator Module),推动AI计算多元化融合发展与产业化应用。

比起浪潮自身在AI计算领域的市场成功,这种用生态的繁荣之力,支撑起AI计算产业长久循环的做法,也让浪潮得以收获更为深远的价值成长空间。

魂:写自未来的奋斗史诗

集齐了产业AI中所需要的“点线面体”各个符号,我们可以获得一个关于计算产业在当下的灵魂属性,也得以确认,到底是什么推动了浪潮一路走来。

一个值得注意的细节是,2016年前后,以深度学习为代表的人工智能所展现出的能量在全球掀起了热议,绝大多数同业者还在观望之际,浪潮就做出了非常坚决的战略调整,选择了押注AI,成为当时全球第一个全力投入研发基于NVLink高速AI服务器的公司。

没有任何市场调研数据或者前人的经验可以告诉浪潮,AI服务器到底会不会受欢迎。最后,浪潮全球第一个做出了在2U空间支持做8片NVLink 技术的V100 GPU的AI服务器,还好市场反应告诉他们,自己做对了。

提前一年多的产业趋势预判,靠的是幸运还是玄学?显然都不是,早在多年前的ISC国际超算大会上,浪潮就曾发布过将深度学习与高性能计算相结合的产品,这一次领先全球的技术革新,只是春播秋收的自然规律。

战略方向的大胆判断,执行途中的踏实稳进,产业共荣的开放潇洒,最终形成了浪潮的AI之魂。

惊艳众人的成绩单背后,是搏击风浪、勇立潮头。浪潮相信了未来,于是,未来便流淌在了每一个具象的符号与动作里。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2020-11-09
从智慧计算的点、线、面,读懂浪潮AI的进化轨迹
在这样一个国际化测试中,浪潮NF5488A5的胜出在宣告中国计算实力的同时,进一步拉高了产业技术的实力上限,让产业界和企业客户能够获得给有效的参考标准,成为牵引服务器市场加速进化的中国力量。

长按扫码 阅读全文