强强联手 百度智能云机器学习平台BML上线NVIDIA RAPIDS加速库

吴玉征 2019-09-12

原标题:强强联手 百度智能云机器学习平台BML上线NVIDIA RAPIDS加速库

近日,百度智能云与英伟达合作,通过容器化技术将RAPIDS库封装到机器学习平台BML,并利用Kubernetes进一步管理,做到了开箱即用,高效灵活。

RAPIDS是NVIDIA数据科学平台,包括了一系列开源软件库和API,能够完全地在GPU上加速数据科学、机器学习、深度学习和数据分析。在机器学习平台BML,开发者只要准备好数据和训练代码,就可以快速启动训练任务。在保护用户数据安全的前提下,极大提升了训练的速度与便捷程度,为开发者带来福音。

机器学习平台BML,一站式开发与部署

百度智能云机器学习平台BML是一款端到端的AI开发和部署平台。基于机器学习平台BML,用户可以一站式完成数据处理、模型训练与评估、服务部署等工作。平台提供高性能的集群训练环境,海量算法框架与模型案例,以及操作便捷的预测服务工具。用户可以专注于模型与算法本身,并得到优质的模型与预测效果。

机器学习平台BML包含工作区、训练和预测三大模块。

工作区为用户提供了基于Jupyter Lab的运行环境,方便用户轻松构建深度学习模型并为训练任务做好准备;训练模块提供了丰富的机器学习框架以及自动调参工具,其中深度学习框架包括PaddlePaddle、TensorFlow和PyTorch,传统机器学习包括RAPIDS cuML以及百度自研的机器学习算法;预测模块可按照部署模型应用的需求,合理的配置调度预测服务资源,搭建部署高可用的在线预测集群服务。支持部署多种深度学习框架、机器学习框架训练生成的模型种类,支持实现在线流量分流和A/B Test。

RAPIDS加速库,更多热门功能并提供 GPU 加速

RAPIDS是针对数据科学的NVIDIA GPU加速库的集合,包括深度学习、机器学习和数据分析。基于CUDA-X AI,RAPIDS包括用于加速深度学习原语的cuDNN、用于加速机器学习算法的cuML、用于加速数据处理的cuDF、用于优化推理的训练模型的TensorRT™以及超过15个其他的库。它们一起与NVIDIA Tensor Core GPU无缝协作,加速开发和部署基于AI的应用程序的端到端的工作流。CUDA-X AI可以集成到深度学习框架中,包括TensorFlow、PyTorch和MXNet。

RAPIDS通过cuDF加速库,能够让GPU加速计算应用到更多机器学习的算法与场景当中,为数据科学家提供标准化的流水线式工具。例如,数据处理方面,RAPIDS将会通过数据准备、数据合并、数据降维三个步骤加速处理数据。使得数据科学家可以加快迭代和测试速度,提供更准确的预测结果,从而改善业务成果。

RAPIDS还引入了不断发展壮大的全新GPU加速ML算法(cuML)库,其中包括XGBoost、Kalman、K-means、KNN、DBScan、PCA、TSVD、OLS 线性回归、Random forest、Kalman Filtering 等算法。

BML+RAPIDS,开箱即用,快速安全

机器学习平台BML通过容器化技术封装了RAPIDS库,并通过Kubernetes管理这些容器,具有开箱即用、启动快速、安全等优势。目前机器学习平台BML在训练模块集成了RAPIDS库,并且支持包含NVIDIA V100、P4 GPU在内的多种GPU套餐。在训练模块,用户只要准备好数据和训练代码,就可以快速启动基于RAPIDS的训练任务。

当用户启动训练任务之后,机器学习平台BML会自动下载用户数据并启动训练脚本;训练结束之后,平台会自动上传训练过程中日志和模型输出,最后销毁容器,平台不会保留用户的任何数据,确保用户数据的安全性。

如何在机器学习平台BML平台上,使用RAPIDS

在机器学习平台BML的训练模块中,选择机器学习,然后新建作业。如图4-1所示,在新建作业页面的算法或框架中,选择RAPIDS-cuML。由于机器学习平台BML提供了默认配置,用户只要点击确定就可以快速启动一个RAPIDS-cuML训练任务。

图4-1 新建RAPIDS-cuML作业

对于用户代码,机器学习平台BML提供了2种录入方式:选取代码文件和直接编辑代码。在选取代码文件中,用户先上传训练代码到百度智能云的对象存储中,然后在代码文件路径中指定路径即可。在直接编辑代码中,如图4-2所示,机器学习平台BML提供了多种RAPIDS-cuML代码模版,用户可以直接使用这些代码模版。

图4-2 直接编辑代码的代码模版

对于用户数据,分为输入数据和输出数据。输入数据分为训练数据和测试数据。如果用户想使用自己的数据进行训练,可以先将数据上传到百度智能云对象存储中,然后在机器学习平台BML中指定对应的路径。输出数据包含训练过程中的日志和用户保存在当前输出目录下的内容,由于要保存输出数据,因此输出数据路径是必选参数。目前输出数据路径支持百度智能云上的对象存储,只要用户设置一个对象存储路径即可。

集群配置中,用户可以选择机器学习平台BML集群、资源套餐等配置。目前机器学习平台BML支持RAPIDS-cuML单机训练任务,可以选择多种GPU套餐。在机器学习平台BML的NVIDIA V100 GPU单卡套餐上,使用GPU加速的Kmeans训练任务,可以获得45倍以上的加速;使用GPU加速的XGBoost训练任务,可以获得33倍的加速。

注:GPU配置V100 16GB显存;CPU配置Intel Xeon Gold 6148,12个逻辑核心。

机器学习作为人工智能的核心,是使机器具有智能的根本途径,其应用遍及人工智能的各个领域,一直是百度智能云研发的重点方向之一。百度智能云自主开发的端到端机器学习平台BML,自面向企业与开发者开放之日起,就获得了广泛好评,这次与英伟达的强强联手,更进一步提升了机器学习平台BML的性能。未来,百度智能云将继续携手更多合作伙伴,为各领域提供最先进的技术与最全面的能力,助推产业智能化升级。

(免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com)

标签机器
  • 吴玉征
    邮箱:caoceng@fromgeek.com
    大数网创始人。
    分享本文到