ChatGPT引发全球追捧,企业为何对“算力”发展如此执着?

从去年12月开始,ChatGPT 犹如一股热浪铺面而来,迅速爆火全球互联网圈。论文撰写、诗歌创作、代码编写…强大的能力引得网友连连感叹:“只有你想不到的,没有 ChatGPT 办不成的。”

在强大能力的背后,算力的支撑是其发展的核心。有人做过统计,ChatGPT 需要超过1万颗 A100 GPU 提供算力支持,单次训练成本超过400万美元,每天成本超过10万美元。

「算力」,再一次被推到所有人眼前,但其实这并不是一个新概念。

1、算力,低调的幕后力量

顾名思义,算力指的就是计算的能力。如果你从来没听说过这个词,或许可以把它等价成 A100 的数量。但很多人还没意识到的是,算力已经像水、电、气一样,成为了我们现代社会不可或缺的关键基础资源。

我国在2022年正式启动「东数西算」工程,在全国规划了8个国家算力枢纽节点、10个国家数据中心集群。就像「西气东输」、「南水北调」一样,「东数西算」也成为了我们国家的战略资源跨域调配工程,这也从非常高的高度,认可了算力的重要意义。

也正是因为看到算力的重要性,包括亚马逊微软谷歌阿里腾讯在内的这些国内外的顶级科技巨头,已经早早的把业务重点转向云计算了。而云计算的本质,就是希望能像自来水一样,为用户提供源源不断的算力。拧开水龙头就会出水,插上电源就会有电,未来接上算力网络,就能使用云端的大量算力。

我们用自来水的时候不会担心水怎么来、也不关心中间经过多少道处理工序。同理,有了云端算力之后,用户就不用担心算力怎么来,也不需要关心硬件实现的底层步骤,只需要专注于用算力的使用就可以了。

听起来好像很简单,实际做起来其实非常复杂,更离不开云计算技术的不断进步与迭代。而自研芯片也已经成了各大国内外云计算大厂发力的重点,甚至是他们的「标配」和「杀手锏」,并且成为各个云厂商的主要差异化所在。此外,云计算领域木桶效应越来越明显,软件和硬件不能有短板;未来进化方向,一定是软硬件协同优化。

2、云厂商前仆后继自研芯片,原因为何?

云计算领域的一个重要趋势,就是这些云计算和互联网大厂都在纷纷自研芯片,包括亚马逊云科技、微软、阿里云都是如此。他们并不是在玩票,而是把自研芯片作为自己的核心竞争优势和主要的差异化。

要说清楚为什么云厂商要自研芯片,就要首先看一下云计算里的一个「不可能三角」,也就是说在云计算里,性能、成本、安全性,这三点不可同时兼得。如果既要又要,就不能还要。比如,追求高性能和低成本,那安全性就要妥协;追求低成本和高安全,那就很难做到高性能;如果既要高性能又要高安全,那成本肯定低不了。

不可能三角出现的本质原因,就是市面上的那些通用软硬件并没有针对特定场景做优化。比如 CPU 厂商提供的处理器芯片,并不是专门为了某个云厂商的实际应用专门设计的,那么在核心数量、主频、缓存大小,以及软件的并行性支持和应用开发上,肯定不会优化的那么深入。这就像去商店买的公版的衣服或许也不错,但肯定不如裁缝量体裁衣来的合适。

于是,这些财大气粗的互联网和云计算大厂,就纷纷开始下水自己做芯片了,而亚马逊云科技,应该算是最早吃螃蟹的那个。

3、AmazonNitro:亚马逊云科技的基石芯片

Amazon Nitro 是亚马逊云科技自研芯片的起点,从2013年推出首颗 Amazon Nitro 芯片起,它已经经历了4代迭代,并且已经成为驱动当今所有 EC2 实例的基础性技术。我们先介绍下 Amazon Nitro 的技术特点,然后来看看这次大会上发布的最新一代 Amazon Nitro v5 芯片。

从广义上来说,Amazon Nitro 并不是单独的芯片本身,而是由多个芯片和板卡组成的基础架构,可以实现存储访问、加密、监控、实例配置等等几乎所有的工作。对于云计算、特别是公有云来说,Amazon Nitro 最重要的意义就是帮助 CPU 减负。也就是说,它能把数据中心里的「网络」「计算」「存储」这些基本功能都从 CPU 里卸载出来,从而释放 CPU 宝贵的内核资源。专用的 Amazon Nitro 卡可以实现高速网络、高速 EBS 和 I/O 加速,不需要在 CPU 上运行额外的管理软件。

同时,Amazon Nitro 系统还能虚拟出来一个统一的用户接口,不管底层硬件用的是x86 CPU、ARM CPU,甚至是苹果的 Mac 硬件,对于用户来说都没有区别。这种软硬件的解耦,就极大地释放了软硬件设计的灵活性,让二者不会相互掣肘,这也是亚马逊云科技能大规模部署基于 ARM 架构处理器的本质原因。当然,Amazon Nitro 出现的本质原因还是基于安全性的考虑,这也一直是 Amazon Nitro 的核心功能之一。比如它会阻止主机之外的任何系统登录或读取基于 Amazon Nitro 的实例内存,从而在硬件层面直接保障安全性。

也就是说,Amazon Nitro 的核心设计理念,就是为了很好的平衡前面说到的那个云计算「不可能三角」,它并不是为了追求单个领域的极致,而追求的是三个重要因素很好的平衡。

去年底,亚马逊云科技召开了一年一度的 re:Invent 大会,并发布了最新的 Amazon Nitro v5 芯片,重点聚焦在通信带宽的提升: PCIe 带宽提升2倍、DRAM 速度提升50%、数据包处理速度提升60%、通信延时降低30%。和前一代相比,Amazon Nitro v5 的晶体管数量增加一倍,并由此带来每瓦性能40%的提升。

事实上,大会上并未公布 Amazon Nitro v5 的架构细节和制造工艺,但这对于用户来说可能并不重要,毕竟用户不会单独购买或者使用 Amazon Nitro 本身,它已经作为每台 EC2 服务器的基础设施而存在了。有了 Amazon Nitro 的高性能和虚拟化功能的加持,也给用户提供了更多的计算实例。在2022年初,Amazon EC2 实例有400多款;经过一年的发展,已经超过600款。这就让算力的供给更加快速和灵活。

4、Amazon Graviton3E:一切为了高算力

除了 Nitro,亚马逊云科技还有一个看家芯片,那就是基于 ARM 架构的服务器 CPU 芯片 Amazon Graviton。

很多人认为,和 x86 架构相比,ARM 架构不适合用于数据中心或者高性能计算领域。但事实上,决定性能的并不是指令集,而是微架构。Amazon Graviton 系列处理器不仅能取得高性能、更能兼顾 ARM 架构低功耗的优势,从而实现更好的「性能功耗比」。和 x86 实例相比,基于 Amazon Graviton3 的实例能取得高达60%的每瓦功耗提升。

在去年的 re:Invent 大会上,并没有发布第四代Amazon Graviton 芯片,但在第三代的基础上增加了对高性能计算的优化。具体来说,就是特别优化了对向量计算和浮点计算的支持。这也是 ARM 架构进一步进军 HPC 的重要尝试。要知道,性能在 HPC 领域只是重要因素之一,同样重要的还有功耗、成本、性价比。在这些方面,ARM 架构无疑有着更大优势。再加上自研芯片的加持,通过大规模部署进一步摊薄成本,就会让性价比进一步提升。这些才是这些云厂商自研处理器芯片的本质动力。

用中国工程院院士孙凝晖的话说,算力时代是算力的基础设施化时代,是走向智能时代的必由之路。如何获得性能更高、更安全、更节能的算力,仍然是云计算厂商和学术界不断探索的课题,一旦解决,或许就会开启人类社会的新时代。

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-03-13
ChatGPT引发全球追捧,企业为何对“算力”发展如此执着?
ChatGPT引发全球追捧,企业为何对“算力”发展如此执着?

长按扫码 阅读全文