数据中台下半场,奇点云走向云原生

2020年9月,伴随着云原生数据平台厂商Snowflake高调上市,“云原生”这个2013年就诞生的概念再度成为热词,被加入到众多数据平台厂商的广告语中。

是创业公司对资本圈风向的追随,还是重新看到了容器化、微服务等云原生技术带来的优势?亦或是因为时候到了——2020年,中国IT预算里超过50%的钱花在了云上,这不仅代表云计算已经成为了中国的主流,同时“非原住民”的数据问题也显得更加突出。

近日,在StartDT Day数据技术大会上,奇点云创始人、CEO张金银(花名:行在)公开发布奇点云全新的数据技术战略:跨平台,云原生,自主可控

十个字,三个词,每一个词都代表着技术上硬碰硬的升级。在这其中,“云原生”再次被聚焦在舞台中央。

数据中台下半场,奇点云走向云原生

行在于StartDT Day数据技术大会

奇点云要做什么?为什么他们非要做“云原生”?

01 悄然生长的“云原生”

指针拨回8个月前,寻常的晚上,奇点云数据平台部负责人地雷收到了一封日报。日报来自平台部的运维工程师黑白,最后轻描淡写地加了一句话:“DataSimba容器化编排已实现。”

DataSimba是奇点云的数据中台产品,承担了企业数据治理、开发、管理、服务等职责,往下集成数据,往上搭载应用,也就是狭义上理解的“数据中台”。

地雷十分吃惊,容器化编排并不是团队安排给黑白的工作——当时,容器化编排还未排入roadmap(产品路线图)。它意味着两件事:

一,2020年疫情持续和业务爆发式增长的双重影响下,依旧有人在默默坚持,做长远的事。

二,在“云原生数据中台”的目标提出之前,DataSimba就已往实现云原生前进了一步。

这更坚定了地雷做云原生数据中台的想法。

刚刚接手DataSimba时,为明确未来的发展路径,地雷做了一个月的调研,发现“云原生”不只是新一波的buzzword而已:

“打个比方,‘数据运维’,它在市场的宣传口径里很少见到,因为这是苦活累活,没有什么漂亮的东西。但我们和客户的IT/运维同学是感同身受的——大数据集群规模大,进程多,非常需要微服务治理和其他智能运维技术。”地雷坦言,“云和大数据运维技术含量高,很多传统的运维工程师会面临比较大的学习成本。但是线上数据、计算和应用规模还在以每年N倍的速度增长。如果不采用CI/CD(持续集成持续交付),而是坚持传统的人肉运维,先别说这种运维工程师的薪酬很高,你可能都招不到这么多合适的人。”

而在存储和计算成本层面,存储海量数据、作业高吞吐高并发的数据中台也对存算分离提出了更高的要求——如果把Hadoop、Spark等常规开源大数据引擎直接应用于云主机,海量数据带来的存储成本和吞吐压力,会很快“压垮”客户。因此,必须引入中间缓存实现计算存储分离,将数据存储到对象存储上,同时兼容HDFS协议,能够根据业务需求进行弹性扩容,从而大幅度降低成本,提高集群性能。

成本和效率问题,推动着数据中台必须走向云原生。这也意味着,云原生不仅仅是一个“技术议题”。

2020年秋,经过创始人、合伙人探讨,行在于奇点云内部正式提出“云原生数据中台是数据中台的未来”,DataSimba要成为云原生数据中台,要让客户享受到云基础设施的优势。

同期,地雷正式完成了DataSimba产品的排兵布阵:微服务对象体系、容器化、CI/CD、元数据管理、存算分离等云原生技术要素,由不同的产品经理分别把守,构筑起坚实的云原生技术结界。

此时,又有个新问题接踵而来:“云原生,是谁的‘云原生’?”

02 业务驱动的“跨平台”

如果讲大数据领域的云原生技术,毋庸置疑,知名云厂商们比奇点云起步早得多,必然也成熟得多。

无论是存算分离,还是容器化、微服务,这些技术要素在云厂商提供的云原生产品中都是必备的,而且不断提供更精巧、更聪明的“语法糖”(Syntactic sugar),让客户觉得更好用。

“但那是云厂商的‘云原生’,不是客户的云原生。”刘莹说。

刘莹(花名:公主)是奇点云联合创始人、COO,毕业于复旦大学计算机系,曾任IBM全球副总裁总助、IBM大中华区行业销售运营总经理,原阿里云西南大区业务总经理,阿里云大数据创新业务代言人。

作为一个有着18年to B行业经验的“老业务人”,她坚定认为“客户认可”至上,杜绝闭门造车、“技术自嗨”。

打个比方,客户在充分享受云原生妙处的同时,从一朵云迁移到另一朵云的成本越来越高,不能自由地选择云厂商,而且不同云厂商之间还要分别派人、用不同的账号管理,这样的云原生还香吗?

没错,在奇点云,最早嗅到云原生跨平台必要性的或许是商务。

有一家全球领先的ODM公司,持续地为海内外客户提供有竞争力的硬件产品。奇点云在前期咨询时估算了其未来的数据量,必须要上云。

那么问题来了:数据放哪里,上哪家云?

它的业态非常特殊,海内外的这几家品牌恰好都有他们自己的云服务,如果把数据放在A云上,B品牌不同意;如果数据放在B云上,A品牌不同意;如果把不同品牌的数据分头放,对于企业本身来说又大大增加了管理和分析成本,不利于未来数智化的发展。短期来看,企业只能找到一家目前还没有这块业务的云厂商C,把经营、运营等数据放在C云上,先把数据中台搭起来。

这同时也存在一个隐患,出于产品耦合性的考虑,企业越晚迁移,迁移成本就越大,而在组织层面,未来潜在成本的问题又没有落到任何一个人的KPI上,大家都不知道谁来解、怎么解。

“常有人说云资源像电力资源。但不同的是,有些地方产电很便宜,可工厂的选址是固定的,它不可能想搬就搬去电力便宜的地方。”刘莹说,“云资源则不一样,企业是可以迁移去更划算的地方的。客户应该有自由选择的权利。”

而另一边,地雷又在进行他的“隐秘工程”。

2020年7月,地雷向高管汇报DataSimba的roadmap时,“夹带私货”提到了多workspace这个构想。在会上,行在并无多言,而在会后给地雷发了个PPT,内容是几年前行在想做的DataSimba混合云方案。

两个“老技术人”一碰,地雷就明白了:“行在听懂了我的意思,哪怕这几年技术变了,我们的想法和方向是一样的。”

Talk is cheap, show me the code.

两三个月后,地雷带领团队“偷偷”地把多workspace在DataSimba上实现了第一版,再次向高管汇报。同时,一条从真实客户需求归纳出的结论,也自前线迅速传递至产品大后方:客户迫切需要支持跨平台的、中立第三方的云原生产品。

技术拓展商业边界,商业驱动技术升级。明确了客户需求,地雷在技术迭代上也更有底气。

在5月20日StartDT Day数据技术大会上,地雷介绍:

DataSimba R3.0目前已实现跨云多域数据治理,支持海内外主流云厂商,包括AWS、阿里云、华为云、腾讯云、京东云等等,实现统一账号、权限、审计的多workspace的兼容管理,并进一步提供数据安全和可信计算方案,从而提高基础设施的可控性和安全性。”

数据中台下半场,奇点云走向云原生

DataSimba R3.0的跨云多域示意图

这意味着依托DataSimba,企业可以实现分级多域部署跨云跨平台部署

用户、权限及配置统一在主域上修改,从域即可自动同步最新数据;客户可以自由在不同的地区采用不同的云厂商进行部署,避免商业因素、地域因素、单一云厂商因素等对其数据能力建设的影响。在保证单个域资源独立的情况下,多个域之间使用统一的权限和账号体系,运维和管理人员就无需在不同平台间切换使用,工作效率也大大提升。

这是因为我们选择和客户站在一起。”行在毫不避讳地表示,“奇点云是标准的乙方数据智能技术供应商,服务于泛零售、金融、政府、制造、运营商等行业,所以有动力做这两件事:一,尽可能优化架构,降低数据应用在IaaS上的计算、存储成本;二,实现跨云数据治理,因此客户在云平台的选择上可以更加从容、更加独立。也就是,哪儿好用用哪儿,哪儿便宜用哪儿。

03 客户可控的“自主可控”

相比跨平台、云原生,自主可控这块“硬骨头”则难啃得多。

有一天,地雷接到行在来电:“奇点云要做自己的引擎,要自主可控。”

“我以前在阿里云ODPS就是干这个的,ODPS团队是全阿里最贵的团队,一百多个高级技术专家,做这一件事。奇点云一向最贴近客户,很现实主义,我们适合做吗?“地雷放下手中的事,跑到角落里和行在争论了快一个小时。

而行在坚持:“这件事有意义,必须做。”

地雷心里非常矛盾。曾在AI四小龙之一担任产品总监的他,其实切身体会过自主可控的重要性:“那时候上实体名单,我们突然啥都不能用了,不能用苹果电脑,也不能用Windows,甚至不能用我们常用的浏览器上网。”

但毫无疑问,自主可控的数据引擎有很高的技术门槛。时至今日,国内实现自主可控数据引擎的公司用一只手数都嫌多。

2020年7月,奇点云到一家金融机构投标。这家金融机构提到:“我们已经花钱买了CDH的版权,但如果美国宣布不允许中国公司用CDH,那我们可能营业都成问题。这能不能解决?”

这个问题像一颗手榴弹,炸到了行在和地雷心里。彼时,华为EDA和国内高校MATLAB相继被美国禁用,几乎每一家金融机构都有着类似的担忧。在这样的国际政治经济环境下,自主可控(Independence),也就是在技术和业务上保证可持续供应,成为了奇点云的必选项。

最终,还是客户让他们下定决心:“不能让中国企业发展在数据基础设施上被‘卡脖子’。”

2021年5月,奇点云正式发布其自主可控引擎StartDT-EMR。它是自有可控的、支持各个类型大数据Job和Service的计算和存储引擎,在技术和业务上保证客户数据基础设施的多样化、可替换、可迭代和可掌握,并保证对关键点的持续创新。

“这未必意味着100%国产或100%推倒从头发明轮子。相反,应该尽可能融入开放生态,符合工业标准。”地雷介绍。

行在则将奇点云的自主可控归纳为“开放的,可被客户掌握的,可以被替换的,可以迭代的”

它不受国际政治经济环境的影响,同时也不受厂商的控制。“它不是一个黑匣子。当出现问题,客户不用抱着一个黑匣子等待厂商上门来修,客户可以自己看到问题所在,可以去迭代和更新。”

“自主可控,就是客户可控。”行在再次强调。

————

从阿里巴巴到奇点云,行在做过国内第一代DBA,搭过第一代数仓,创建过TCIF(淘宝消费者信息库)第一次打通消费者数据,也创建过阿里云数加平台(现DataWorks),把大数据能力外化给社会。

走过近20年的大数据之路,“技术老兵”行在从没放下他“普惠大数据”的野心。怀揣着数据技术的理想,旅途的终点始终指向客户。

在5月20日的StartDT Day数据技术大会上,行在首次对外披露了一个数字:NRR235%。NRR(Net Revenue Retention)指净收入留存率,“举个例子,我们2019年的新客户花了100块购买奇点云的服务,他在2020年还花了235块,继续购买奇点云的服务。这代表着客户对我们充分的信任和认可。”行在颇为骄傲地说,“作为参考,Snowflake在上市时NDR(收入为美元,即Net Dollar Retention),是158%。”

而在NRR235%之后,奇点云要做什么?

“跨平台,云原生,自主可控。”

十个字的数据技术战略后面,还跟着一句话:“和客户站在一起。”

这个战略的提出仰赖于五年来客户的不断鞭策,从客户的需求中来,在DataSimba、数据智能产品套件、DataNuza等数据产品和服务中承接落地,又回到客户的实践中去。

数据中台下半场,奇点云走向云原生

奇点云产品矩阵

奇点云把“机器智慧超越人类智慧的瞬间”称为奇点时刻:数据通过好的算法和应用创造价值,同时应用后又产生了更多有价值的数据,再次让算法和应用成长升级,赋能业务,形成一个越转越快的闭环,解放人类去思考创新。

很难说距离实现“奇点时刻”还有多久,好在奇点云还很年轻,脚踏实地之余,有足够的时间让他们仰望星空。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )