Alluxio宣布正式发布数据编排平台2.7版本 新版本立即可用

11月18日消息,日前,全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.7版本,新版本立即可用。2.7版本通过并行数据加载、数据预处理和训练工作流,可将机器学习(ML)训练的I/O效率提高8-12倍,从而显著降低成本。新版本还提供了更强的性能分析,并能更好地支持ApacheHudi和Iceberg等开放表格格式,使得对数据湖的访问更易于扩展,从而实现了Presto和Spark的分析提速。

“Alluxio2.7版本进一步巩固了Alluxio在云上人工智能(AI)、机器学习和深度学习方面的重要地位,”Alluxio创始人兼首席执行官李浩源表示。“随着数据集的增长以及CPU和GPU计算能力的增强,机器学习和深度学习已成为AI主流技术。这些技术的兴起推动了AI的发展,但也凸显了数据和存储系统访问中存在的一些挑战。”

“我们在1000个节点的集群中部署了Alluxio,用来加速我们游戏AI平台上模型训练的数据预处理。事实证明Alluxio稳定、可扩展且易于管理。”腾讯大数据平台研发负责人陈鹏表示。“随着越来越多的大数据和AI应用容器化,Alluxio正在成为大型企业和机构的首选,作为加速数据分析和模型训练的中间层。”为了达到这一目标,腾讯AlluxioOTeam的毛宝龙团队与社区紧密合作,贡献了一系列重要的功能,包括运行期动态更新配置、CephFS存储支持,修复了超过二十个bug并增加了二十余个系统指标。

“拥有大规模分析和AI/ML计算框架的数据团队面临着越来越大的压力,需要让日益增长的数据源更易于访问,同时确保性能的稳定,这需要同时考虑数据本地性、网络I/O和成本问题,”ESG分析师MikeLeone表示。“企业和机构希望选用更实惠和可扩展的存储,如云对象存储,同时避免昂贵的应用程序修改或处理新的性能问题。Alluxio通过抽象存储细节并使数据更接近计算侧来应对这些挑战,尤其是在混合云和多云环境中。”

Alluxio2.7版本新增以下功能:

使用Alluxio和NVIDIA的DALI进行机器学习训练

NVIDIA的数据加载库(DALI)是一个常用的Python库,支持通过CPU和GPU进行数据加载和预处理从而加速深度学习。在2.7版本中,Alluxio平台进行了优化,可以与DALI一起部署用于加速基于Python的ML应用,其中包括模型训练和推理之前的数据加载和预处理步骤。通过加速I/O密集型工作并允许并行处理后续的计算密集型训练,Alluxio数据平台上的端到端训练与传统解决方案相比实现了显著的性能提升。对于海量小文件的训练,与其他解决方案相比,该解决方案可以实现横向扩展(scale-out)。

大规模数据加载

Alluxio的核心定位是数据管理能力,这些能力包括对分散的数据源进行统一和实现缓存。随着Alluxio越来越多地用于计算和存储跨多个地理位置的场景,Alluxio自身也在不断扩展。本次更新采用新技术对数据进行批处理,从而增强其可扩展性。批处理通过使用内置执行引擎处理数据加载等任务,减少了管理控制器对资源的需求,从而减少了系统配置的工作量,降低了成本。

Kubernetes上的易用性

Alluxio现在支持用于Kubernetes的原生容器存储接口(CSI)驱动,以及用于ML的Kubernetesoperator,这使得在容器化环境中的Alluxio平台上操作ML工作流比以往任何时候都更加容易。Alluxio的卷类型现在可用于Kubernetes环境。敏捷性和易用性是本次新版本关注的重点。

在Presto上基于分析动态调整缓存

新版本还推出了智能缓存新功能,名为ShadowCache,能够动态分析缓存大小对响应速度的影响,从而轻松实现高性能和低成本之间的平衡。对于大规模的多租户Presto环境,此新功能通过自助管理显著降低了管理开销。

“在存储与ML计算分离的情况下,数据平台团队利用Alluxio来简化数据预处理和加载阶段,”Alluxio高级产品经理AditMadan表示,“这种简化使得SparkML、Tensorflow和PyTorch等框架能最大限度地利用GPU。Alluxio解决方案可在AWS、GCP和AzureCloud等多个云平台上使用,现在也可在私有数据中心或公有云中的Kubernetes上使用。”

日前,Alluxio宣布完成5000万美元C轮融资,该轮融资由新投资方高瓴创投领投,战略投资方和原股东a16z,SevenSeasPartners,火山石投资跟投。与此同时,Alluxio宣布将大力拓展国内市场业务,将北京设立为中国区总部,并成立本地化的研发团队,以快速响应并满足众多国内企业的个性化需求。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2021-11-18
Alluxio宣布正式发布数据编排平台2.7版本 新版本立即可用
【TechWeb】11月18日消息,日前,全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.7版本,新版本立�

长按扫码 阅读全文