阿里的NASA为什么会从一款人工智能语音助手启航

阿里的NASA为什么会从一款人工智能语音助手启航

没人能想到,阿里高举高打的NASA计划,首款落地的产品,却是一款智能音箱,似乎太低调太朴实了。这个看似不够酷炫也不够宏伟的开端,如何支撑起阿里NASA计划的雄心壮志?

音箱外壳,AI之心

如果把这款新发布的天猫精灵X1,仅仅看作一款智能音箱,那你小看了它,也低估了阿里的野心。

这款由阿里人工智能实验室(A.I. Labs)发布的智能产品,在音箱外壳包裹的其实是基于人工智能的语音助手,从这个角度,才能理解它为何能承担阿里NASA计划开局者的角色。

语言,作为智慧生物最为主要的交流方式,和图像、行动力一起并列为公认的三大交互方式。

而在三种交互方式中,一切需要阐释的复杂事物,对其记载、描述、传播等,都离不开语言,现在,现在你们读着的这篇文章,就是我用人类语言写就的,语言是人类文明的产物,也是唯一只有人类才掌握的交互方式。

当基于人工智能的机器走入人类生活当中,两大主体都在不断加深了解。对于机器来说,通过不同的方式来理解人,难度是不一样的。

智能手机时代可以视为人工智能1.0时代的产物,那时候的机器是低智能的,他和你的交流方式就是把所有的选项都呈现在屏幕上让你去选择,一步一步的指导它的行为,这是“人的智能”,手机是被动的执行者的角色。

阿里的NASA为什么会从一款人工智能语音助手启航

但文字输入显然不是最好的方式。过去,智能手机虽然取代了功能机,但是老人机仍然有极为庞大的市场,为什么呢?因为,中老年任第一不会用打字,第二操作不了复杂的app,这说明过去文字输入为主,以app为主要形态的智能手机,其实并不够任性。而语音的使用则毫无门槛。

仅仅像个木偶一样简单粗暴的执行命令还是不够的,机器需要具有更高的智能去理解人的指令, 按照阿里人工智能实验人负责人、淘宝首任产品经理浅雪的介绍,天猫精灵有三大AI能力,分别是理解能力,执行能力,以及进化能力。

其次,由于语音交流相比视觉对人的“内存”占用更少,可以把人从4英寸的屏幕上解放出来,同时去做更多的事,语音助手可以提供更多的服务,诞生更大的商业机会,这也是亚马逊的Echo成功带来的启示。

目前天猫精灵x1已经具备音乐音频内容的播放、听故事、讲笑话、查运势、玩游戏、查天气、找手机、问百科、设闹钟/定时器、查食物热量、充话费、查快递、查价格、天猫魔盒控制、天猫超市购物、智能家电操控等功能。作为一个具备进化能力的AI设备,随着开发者的入驻,天猫精灵X1能够实现的功能还将快速增加。

而且,作为女性的浅雪相当细腻贴心,考虑到这款智能音箱的主要应用场景是家庭,有时候可能有不少其他场景的噪音,因此,开发人员在厨房,客厅,卧室,书房等环境里面,对玻璃,木材,混凝土,金属,石材,等各种材质和环境进行了上千次实验,让天猫精灵x1能够适应在家庭环境噪音下进行唤醒,并且具备一定的学习功能,可以根据环境噪音进行学习和进化,适应不同家庭环境噪音,经过7天左右优化,会更加适应所在家庭环境。

第三,语音助手具有高度可扩展性,在手机时代,即使是安卓这样的开放操作系统的扩展性也只局限于手机这一种产品,但语音助手理论上可以应用于所有产品,无论是有屏幕的还是没有屏幕的,可移动的还是不可移动的设备都可以植入语音助手,并且成本远低于手机操作系统,使平台价值可以最大化的体现。

从同期发布的阿里精灵开放平台来看,这确实也是阿里正在走的一条道路。在NASA计划之后以这样一款产品来启航,是一个相当巧妙的切口。

对标亚马逊Echo

从目前透露的信息看,天猫精灵最有可能成为中国版的Echo。 智能音箱的热潮,开局者是谁大家忘记了,但目前做得最成功的,就是亚马逊的Echo。

Echo面市后,不到两周的时间内预订量就达到了一百万,作为对比,iPhone用了70天才达到同样的订单数。

今年6月第三方机构CIRP的统计显示,上线一年,其销量已经超过300万台。销量惊人,也被贝索斯提升到了集团重点战略产品。

说天猫精灵最有可能成为中国版Echo,这个判断是基于基因、优势、资源、路径做出的。

第一,高性价比,快速落地。

为了求增长赔钱多年的亚马逊做Echo,不是为了捞一般就走,阿里推出天猫精灵也不是为了挣快钱。

从定价策略上,目前天猫精灵和同业相比,性价比是最高的。苹果的HomePod是349美元,Echo是190美元,而天猫精灵xi的定位只有499元。不妨再和国内友商对比一下,5月上市的联想智能音箱899元。

不差钱的阿里,通过高性价比,可以后来者居上。根据市场调研机构StrategyAnalytics的统计,2016年智能音箱全球出货量590万台,并将在2022年增长10倍,市场价值达到55亿美元。而Gartner 预测,到2018年30%的人机交互通过自然语言完成,可以说,在智能音箱爆发前夜,阿里通过高性价比以及高品质产品,精准卡位。

阿里的NASA为什么会从一款人工智能语音助手启航

二,技术储备要强,产品体验要好。

为何过去折戟在智能手机领域的亚马逊,做Echo虐杀了苹果和谷歌?

除了高性价比外,还有产品细节。过去,智能音箱的反应时间通常有两到三秒,但贝索斯提出了苛刻的要求,“用户等待时间不超过1秒钟。”

反应速度背后,其实是技术积累。阿里在语音识别领域也在迅速进步,在美国国家标准署2016年举办的全球说话人识别竞赛(NIST SRE2016),阿里巴巴以OpenSesame(芝麻开门)为队名,采用了基于深度学习网络的特征提取,借助距离测度学习来提高数据的泛法能力,开创性提出利用对称性支持向量机器来提高系统性能,在近两百多支参赛队伍中,阿里最后的系统性能在大中华区声纹识别性能排第一,美国赛区第二,同时我们递交了4个相关的专利。

而阿里在启动了NASA计划之后,把人工智能提升到集团战略的高度,对技术的投入有增无减。

第三,离技术不远,离商业场景最近。

阿里和亚马逊,都是电商起步,目前阿里的业务对商业场景的理解最为深入,如果用户希望智能音箱真的能够帮助你完成一些工作,为其提供商业服务,那么阿里的胜算最大。这也亚马逊成功的秘密。

人工智能能否登顶,取决于两大因素,第一技术,第二场景。在技术上和谷歌相比,并没有绝对优势的亚马逊做Echo能成功,说明在语音助手这个领域,相比于技术,可能场景的权重更大,对后段商业和服务生态的整合能力决定了竞争的高度,而在语音技术方面的积累只是一个下限,对大玩家来说并不成为门槛。

第四,对外开放,协同多方力量,打造高协同性的生态平台。

亚马逊Echo的成功,还在于其搭建了一个开放生态,为产品赢来源源不断的第三方服务。

而天猫精灵X1内置了第一代中文人机交流系统AliGenie,当天,阿里人工智能实验室还同时发布了面向开发者和硬件厂商的AliGenie开发者平台。

AliGenie的开放包括技术开放和生态开放两个层次。

在能力方面,对外开放了深度学习 、自然语言处理 、搜索/推荐算法 、知识表示及推理问答系统等核心能力,免费开放给开发者和硬件厂商,无需从头搭建AI语音系统,节省在研发上的巨量投入,使开发者能够更好的为用户提供服务

而在业务场景上,AliGenie未来还会搭建丰富的业务形态,比如儿童领域、酒店领域、家庭场景下、TO B其他商业场景、线下零售场景、与其他显示设备结合的场景等等。

可以说,上述四点,就是决定了天猫精灵x1有望成为中国版Echo的关键。

NASA的计划宏伟壮观,那是阿里的远景。但路总要一步步走,比起来鲜花着锦却无法落地的空头概念,还是一个所见所得的落地产品更为可信亲切。

一个小小的智能音箱,却是阿里NASA计划的关键一步。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。