AI技术的“最后一公里”,亚马逊云科技如何搞定ETL问题?

AI的“多米诺骨牌”效应正在加剧,无论从哪个维度看,这种连锁变化都不可忽视。

在2023 re:Invent 大会上,亚马逊云科技CEO Adam Selipsky围绕芯片、云、数据库、集成服务多个领域,强化AI底色。演讲时间长达两个半小时。

在数据服务领域,这一现象前所未有地突出。从信息化到数字化,从数字化到智能化,数据要素重要性不断提升的同时,面向数据的服务也从后端走向前台。

信息时代的门面是大型企业管理系统与机房,数字时代的门面是云与SaaS,那么数据与业务的深度锚定,将企业各种各样的数据应用和业务场景捆绑集成在一起,就是AI时代最新的门面。

然而时代的更替,也给用户带来新的挑战与困难,尤其是数据工程师的痛苦与日俱增。面对企业或个人过往长期积累的数据总和,以及当前日均PB级别的数据增长,在一些BI、AI的项目中,ETL环节就会占用30%的项目时间,而70%的ETL构建和维护工作量也成为数据工程师的常驻梦魇。

ETL就像一个黑洞,在无休止吞噬项目资源。

天下苦ETL久矣,亚马逊云科技 Zero-ETL打通云上云

这里有必要解释一番ETL,即提取、转换、加载(Extract、Transform、Load),将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL也是BI项目重要的一个环节,将直接决定BI项目的成败。

虽然ETL随着数据技术不断迭代发展进入成熟阶段,但也因为其积累足够久远,造成当前ETL工具种类繁多,如Informatica PowerCenter、Microsoft SQL Server Integration Services(SSIS)、IBM InfoSphere DataStage、Apache NiFi等产品各有不同,第一道选型大门就令许多数据工程师不得不反复切换。

千辛万苦选型之后,摆在面前的是ETL任务量随项目复杂度“指数级正相关”。数以千计的ETL任务、调度、排查、维护则成为通往项目成功路上的各种地雷、荆棘。

组织或个人想要在数据中挖掘价值,获得数字化转型的果实,就不得不死磕ETL,正是一种明知山有屎,偏向屎山行的无奈。

如何能够相对轻松解决ETL问题,不仅是数字化转型的痛楚,也是攻克更有效使用AI技术的关键。在时代的推动、客户需求的爆发下,亚马逊云科技在2022年re:Invent全球大会上发布了Zero-ETL服务,正式开创了“零ETL时代”。

亚马逊云科技希望通过Zero-ETL解决方案,把从数据仓库到数据湖的鸿沟填平,令数据工作者用最低的成本,高效完成不同服务间的数据迁移和转换工作,帮助企业实现数据“无感知”、“更自由”的流动能力,从而更好地管理和利用数据。

亚马逊云科技数据库、分析和机器学习副总裁Swami Sivasubramanian表示:“借助Zero-ETL,无论企业和数据的规模有多大,复杂度有多高,通过为客户消除ETL和其它数据迁移任务,助力客户专注于分析数据,面向业务获取新的洞察。”

为此,亚马逊云科技发布两个主要功能:Amazon Aurora与Amazon Redshift的Zero-ETL集成,以及适用于Apache Spark的Amazon Redshift集成。

用户可以在将数据写入Aurora数据库后的几秒钟内对Redshift运行复杂的分析查询。开发人员跳过将数据导入S3,才能在EMR或SageMaker上使用Spark作业的中间数据阶段,就能直连Redshift以创建机器学习应用并处理近乎实时的数据。这极大地减少处理数据并为表示层做好准备所需的时间。

很显然,亚马逊云科技的愿景是希望通过Zero-ETL的方式,把企业或个人从繁杂的基础数据处理事务中解脱出来,令所有人能够将更多的时间和精力聚焦于业务和项目本身,强化客户在业务端的竞争力。

经过一年的锤炼,在2023年亚马逊云科技对Zero-ETL进行了进一步深化。

Adam Selipsky表示:“如今新的Zero-ETL集成可以把事务处理、数据分析集成在一起。在亚马逊云科技不同的云服务之中,通过Zero-ETL能够更好地实现数据在不同服务之间的打通。使工作效率快速而便捷。”

主要表现在5项新的Zero-ETL集成功能,使客户能够快速、轻松地连接和分析数据,而无需构建和管理复杂的提取、转换和加载(ETL)数据管道:Amazon Aurora PostgreSQL、Amazon DynamoDB、Amazon RDS for MySQL与Amazon Redshift数据库的集成,以及Amazon DynamoDB与Amazon OpenSearch服务的Zero-ETL集成,Amazon S3与Amazon OpenSearch服务的Zero-ETL集成。

具体表现为:

• Amazon Aurora和Amazon Redshift的Zero-ETL集成,用于实时分析。并且亚马逊云科技云上的服务之间建立了集成,使分析和机器学习变得更容易,而个人无需深入研究ETL的复杂性。

• Amazon DynamoDB 与Amazon OpenSearch 服务的Zero-ETL集成,不用自定义代码或者基础设施,就能自动复制和转换DynamoDB数据来执行搜索任务;通过与Amazon Athena和Amazon Redshift的联合查询,可对存储在操作数据库、数据仓库和数据湖中的数据运行查询,从而在不移动数据的情况下提供对多个数据源的洞察力。

• Amazon S3与Amazon OpenSearch服务的Zero-ETL集成,在Amazon S3和基于S3的数据湖中查询操作日志的新方法,而无需在服务之间切换。用户可以分析云对象存储中不经常查询的数据,并同时使用OpenSearch Service的操作分析和可视化功能。

• Zero-ETL已经连接100多个数据源,包括SaaS、企业内部和其他云,可对所有数据采取行动。如使用AppFlow将数据湖和数据仓库连接到50多个SaaS应用程序;使用Data Wrangler,在Amazon SageMaker上使用来自40多个数据源的数据一键建立模型;利用QuickSight,使用30多个数据源构建交互式仪表盘;还可使用亚马逊云科技 Data Exchange访问到来自300多个数据提供商和3500多个数据产品等。

这就意味着,只要在亚马逊云科技端服务中,客户即可通过Zero-ETL集成无缝将不同数据库、跨多应用的数据用近乎无消耗的方式,应用于如营销、客服、运营等不同的业务场景之中,不必浪费巨大的精力在传统ETL任务上,在理论上可以在ETL环节节省接近60%的项目时间资源,加速客户的数据应用能力成型。

可以预见,Zero-ETL短期将贯通自身各类云服务的数据转换桎梏,但亚马逊云科技更大的数据棋局也已经在与伙伴的深度合作中展开——通过Zero-ETL,实现客户多云数据的应用自如。

从2小时到10秒钟,使用数据有点“easy money”了吧

在全球范围内制造业、金融、医疗、科技等多行业的众多世界500强企业,已经通过Zero-ETL实现了卓越的数字化体验。

亚马逊云科技通过对Zero-ETL预览版的客户观察发现,客户在使用Zero-ETL之前,它们Amazon Aurora MySQL数据库每分钟产生数十万个事务,将这些数据从ETL管道移动到Amazon Redshift的过程需要超过2个小时的延迟时间。

但是通过Aurora和Redshift之间的Zero-ETL集成之后,同样的数据仅需要不到10秒的时间就已经出现在Amazon Redshift数据仓库中,几乎可以实现无缝的实时分析。

西门子股份公司专注于工业、基础设施、交通和医疗领域,并与亚马逊云科技在多个项目上有着紧密合作。出于企业战略需要,构建基于生成式AI的会话机器人“小禹”。

小禹回答内容不仅生成速度更快,其对搜索关键词的命中率也更高,整体使用体验远超传统机器人,首周就有超过4000位内部用户参与使用,超过12000个问题被提出并解答,不但解决各业务部门之间需求相似、重复开发的问题,更以云上弹性资源和托管的Amazon OpenSearch Service、Amazon SageMaker等服务节约了系统在运维和扩展方面的投入成本。

实现小禹快速高质量的实时应答,以及知识库运维托管的低成本功臣,就是背后的Zero-ETL。开发人员不需要管理集群或担心生产规模,可以快速推动部署,并且在多部门、多应用的数据仓库提出数据快速复制到Redshift中进行分析响应。

Adobe通过Amazon Redshift集成的Amazon Aurora Zero-ETL功能为不断扩大的Acrobat Sign客户群提供新的洞察和更快的分析能力,并随着他们用量的增加而同步增长,并且还免去了自己团队的日常维护工作。

Infor作为商业云软件和特定行业ERP解决方案的全球领导者,使用Amazon Redshift集成的Amazon Aurora Zero-ETL功能,它将让Amazon Aurora中的交易数据近乎实时地提供给Amazon Redshift,在不影响Aurora用作关系型数据库性能的同时,又减轻整个组织的运营负担。

高盛集团作为全球顶尖的金融机构,通过面向Apache Spark的Amazon Redshift集成功能,数据平台团队以最少的定制化操作就可以访问Amazon Redshift数据,实现零代码ETL令工程师收集完整及时的信息时,让他们更容易专注于完善其工作流。由于用户现在可以轻松访问Amazon Redshift中的最新数据,高盛将能实现更高的应用程序性能和更强的安全性。

通过不同客户对Zero-ETL的实际使用效果来看,新Zero-ETL已经为客户带来两个突出的价值表现:

• Zero-ETL开启后对Aurora MySQL的性能几乎无影响。通过sysbench压测发现,在进行ETL前后,CPU利用率、读写IOPS以及网络流量几乎没有发生变化。

• Zero-ETL快速进行配置,即可复制除系统表之外所有表的数据,易于使用,没有繁杂的配置整个数据库就可以全部同步到数仓。

Adam Selipsky认为:“数据集成不应该是人工工作的无底洞,你需要一个更好的服务去自动化地、轻松地去连接所有的数据,并且加以使用。”

很显然Zero-ETL已经在客户数字化转型乃至智能化转型中赢得信赖,并且开始让客户感受到ETL这个无底洞将被填平,使用数据前所未有的流畅与简单。

Zero-ETL下一步

无论是亚马逊云科技,还是微软、IBM等巨头,都对Zero-ETL寄予厚望。在打造更极致的数据应用体验同时,以更低成本、更高效方式释放数据能量。

在产品侧,云原生的技术和分布式计算架构已经成为共识,以最佳性能提高Zero-ETL的伸缩灵活性,并且基于云原生特点,Zero-ETL工具会越发注重降低开发门槛和跨平台能力,以应对更多样化、多数据源、多云环境下的数据生态系统。

同时Zero-ETL自身会变得更加智能,利用生成式模型等技术自动学习数据关系,从而减少手动配置的需要。并且更加强调实时数据处理能力,支持快速的数据流传输和处理,以满足实时分析的需求。

在市场发展侧,随着客户行业化、场景化需求的加深,不同行业客户对面向特定行业或领域的数据集成、处理等诉求不断涌现。并且随着数据隐私、数据治理合规的愈发严苛,客户业务场景也对敏感数据的脱敏、加密等环节的优化提出了思考方向。

站在生成式AI立面,Zero-ETL与其结合水到渠成。自动生成的数据和自动化数据处理,进一步提高数据集成和处理效率,从数据处理到数据使用大幅提升用户对数据应用的极致体验。

亚马逊云科技提供了完全托管的生成式AI服务Amazon Bedrock,它使用单个API提供来自AI21 Labs、Anthropic等公司的多个大语言模型,并且支持任意模型之间的任意数据交互。这意味着,通过使用Amazon Bedrock平台,企业可以更轻松地实现数据集成和处理,同时利用生成式AI技术自动生成所需的数据,从而更好地利用数据。

Zero-ETL是一条载着亚马逊云科技与客户一同迈入生成式AI时代的“方舟”。Zero-ETL深度地整合生成式人工智能技术,以进一步优化数据集成和处理的效率,有助于提高企业对数据的价值提取能力,促使数据驱动决策更加普及。

结语

2023 re:Invent无疑为行业带来了前所未有的震撼。对于开发者、业务专家来说,这不仅仅是一场技术的盛宴,更是一次对未来的深度探索和预见,有规模的惊喜,也有认知的惊喜,而这些将极大地激发他们的创新热情和工作激情。

微信搜索大数网,即可查看2023亚马逊云科技 re:Invent更多相关内容。

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-12-05
AI技术的“最后一公里”,亚马逊云科技如何搞定ETL问题?
AI技术的“最后一公里”,亚马逊云科技如何搞定ETL问题?

长按扫码 阅读全文