Graphcore IPU进入中国 能否搅动AI芯片市场?

6月23日消息,不是老套的CPU、GPU,AI应该需要一块专属芯片。这个想法让全球更多创企看到挑战巨头的机会。

今年2月EE Times评选出“十大AI芯片创企”,其中来自英国的Graphcore凭借其为AI计算而生研发的IPU获选。

英国半导体之父、Arm的联合创始人Hermann更是对Graphcore给予高度评价,他曾表示:“在计算机历史上只发生过三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。”

资料显示,Graphcore是一家英国AI芯片硬件设计初创公司,成立于2016年,总部位于英国布里斯托,Graphcore的主要业务是设计用于AI应用程序的处理器,为云服务等应用提供产品支持。

Graphcore的核心技术和产品是智能处理器(IPU)硬件和相应的 “Poplar” 软件,该软件专门针对AI应用程序所需要的密集型计算而设计,以及IPU系统解决方案。目前其IPU GC2处理器已经量产。

截至目前,Graphcore已经获得超过4.5亿美元的融资,战略投资者不乏宝马、博世、戴尔、微软、三星等各行业巨头。Graphcore最近的一轮融资在今年2月完成,公司估值已达19.5亿美元。

去年,这家AI芯片创企Graphcore将业务拓展至中国,我们也得以近距离了解这家企业的产品和中国市场愿景。

IPU为AI而生16纳米GC2处理器已量产

今年5月27日,在英国Intelligent Health峰会上,微软机器学习科学家分享了使用IPU训练CXR模型的卓越性能:IPU在运行微软COVID-19影像分析算法模型时能够在30分钟内完成训练,而在NVIDIA GPU上这项工作需花费5个小时。

Graphcore高级副总裁兼中国区总经理卢涛

Graphcore IPU一战成名。

Graphcore高级副总裁兼中国区总经理卢涛介绍,之所以IPU能有如此优异的表现,是因为 “Graphcore的IPU是为机器智能专门设计的、完全不同的处理器架构,跟CPU、GPU等处理器架构非常不一样”。

卢涛表示,CPU是针对应用和网络进行设计的处理器,是标量处理器。GPU是针对图形和高性能计算、以向量处理为核心的处理器,而Graphcore IPU是针对计算图的处理来设计的处理器。

具体而言,“IPU应用了大规模并行MIMD的处理器核。另外进行了非常大的分布式片上SRAM,在片内IPU能做到300 MB的SRAM。相对CPU的DDR2子系统或GPU的GDDR、HBM来说,IPU能做到10到320倍的性能提升。从时延的角度看,与访问外存相比,IPU时延基本为1%,可以忽略不计。” 卢涛透露。

以Graphcore已经量产的IPU GC2处理器为例,卢涛介绍道:“这款产品采用TSMC 16纳米工艺,是拥有236亿个晶体管的芯片处理器。它在120瓦的功耗下能够达到125TFlops的混合精度,内存带宽为45TB/s、片上交换可达45TB/s、片间IPU-Links为2.5TB/s。GC2上有1216个独立处理器核心(Tile),其300MSRAM能够把完整的模型放在片内。”

据悉,Graphcore采用构建大规模数据中心集群的BSP(Bulk Synchronous Parallel)技术,该技术目前在谷歌、Facebook、百度这样的大规模数据中心都已获得应用。

卢涛强调:“IPU是目前全球第一款BSP处理器,通过硬件能支持BSP协议,并通过BSP协议把整个计算逻辑分为计算、同步、交换。对软件工程师或开发者来说,这将非常易于编程;而用户也无需纠结于这里面是1216个核心(Tile)还是7000多个线程、任务具体在哪个核上执行,因此这是一项非常用户友好型的创新。”

与IPU相辅助的是Poplar软件,该软件专门针对AI应用程序所需的密集型计算而设计。卢涛透露:“目前Poplar已提供750个高性能计算元素的50多种优化功能,支持标准机器学习框架,如TensorFlow、ONNX和PyTorch,很快也会支持百度飞桨。在部署方面,目前Poplar可以支持容器化部署,能够快速启动并运行。在标准生态方面,Poplar能够支持Docker、Kubernetes,以及Hyper-v等虚拟化技术和安全技术。在操作系统方面,目前Poplar SDK支持最主要的三个Linux发行版:ubuntu、RedHat Enterprise Linux、CentOS。”

IPU服务AI优势凸显比GPU效率大幅提升

目前基于IPU的应用已覆盖到包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型在内的多个机器学习应用领域。

Graphcore中国销售总监朱江

“在自然语言处理、计算机视觉类应用和概率类算法中,IPU的表现在现有以及下一代模型上,性能均领先于GPU。”Graphcore中国销售总监朱江介绍, “在自然语言处理方面,IPU速度能够提升20%至50%;在图像分类方面,IPU能够达到6倍的吞吐量和更低时延;在MCMC算法方面,IPU具有26倍的性能提升;在ResNeXt这类比较新的计算机视觉类应用方面,IPU能做到6倍的吞吐量、22分之1的时延。”

朱江以BERT模型为例进行了对比。BERT训练在NVLink-enabled的平台上,大概50多个小时才能做到一定精度,而在基于IPU的戴尔DSS-8440服务器上,只需要36.3小时,相当于训练时间缩短了25%。

如果做一个分组卷积内核的micro-benchmark,将组维度(group dimension)分成从1到512来比较。这里组维度512就是应用得较多的 “Dense卷积网络” ,典型的应用如ResNet。此时IPU GC2性能比V100要好近一倍。

随着稠密程度降低、稀疏化程度增加,在组维度为1或32时,针对EfficientNet或MobileNet,IPU对比GPU展现出巨大的优势,可以达到成倍的性能提升,同时时延大大降低。

据朱江介绍,Graphcore IPU现已广泛应用于金融、医疗、电信、搜索引擎等诸多垂直领域,并在这些领域表现出显著优势。

除了前面提到的IPU在运行微软COVID-19影像分析算法模型时的优异表现外,在金融领域,包括算法交易、投资管理、风险管理及诈骗识别等方面,IPU可以使MCMC采样速度提高26倍,强化学习的训练时间缩短至1/13。

电信领域,LSTM模型预测性能促进网络规划,基于时间序列分析,采用IPU比GPU有260倍以上的提升。

朱江总结道:“IPU是一个全新的架构设计、是一个图形处理器,具备多指令、多数据的特点。除了稠密的数据之外,现在代表整个AI发展方向的大规模稀疏化数据,在IPU上处理就会有非常明显的优势。”

进入中国已与百度阿里合作7纳米IPU新品今年发布

现在Graphcore携其IPU登陆中国市场,以期在中国市场大展拳脚。

目前,如果用户想访问IPU系统,可以通过购买戴尔服务器或微软云来访问IPU资源。在中国,Graphcore和金山云合作,即将上线针对中国开发者和创新者的云业务。

卢涛透露,今年5月12日,在OCP Global Summit上,阿里巴巴宣布Graphcore支持ODLA的接口标准。随后5月20日,在百度Wave Summit 2020上,百度宣布Graphcore成为飞桨硬件生态圈的创始成员之一。Graphcore希望通过这样的方式来积极融入中国的AI生态圈。

在谈到中美AI市场的差异时,卢涛向TechWeb表示:“目前,美国在IPU的落地与推进速度方面比中国要更快一些,不过现在中国的推进速度也愈发快速。这是因为美国用户更多来自于较为活跃的研究者社区,而中国用户非常注重产品落地。国外的AI应用更加侧重研究,而中国更加看重产品化的训练和产品化的推理,更加侧重AI如何解决应用问题。”

为了适应这一市场差异,卢涛介绍:“长期来讲,Graphcore会针对中国市场的需求,进行产品的定制化。从服务角度而言,Graphcore中国目前有两支技术团队——一支是以定制开发为主要任务的工程技术团队,另一支是以对用户技术服务为主的现场应用团队。工程技术团队承担两方面工作,一是根据中国本地的AI应用特点和需求,将AI的算法模型在IPU上实现落地;二是根据中国本地用户对AI稳定性学习框架平台软件的需求,进行功能性的开发加强工作。现场应用团队则是帮助客户完成现场的技术支持工作。”

卢涛说:“我们对中国市场的期望非常高,期望中国市场能够占到Graphcore全球市场的40%甚至50%。虽然Graphcore在中国市场的整体启动比北美要晚一年左右,但从目前进展来看,我们发展得非常不错。”

另据卢涛透露,Graphcore下一代7纳米处理器将于今年下半年正式发布,相信新产品会有卓越表现。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。