谷歌也干了?Bard被曝使用ChatGPT的数据进行训练 大模型真是一步落后步步落后

极客网·极客观察(舒云)3月31日 还记得百度文心一言被质疑是"套壳"事件吗?近日外媒爆料,谷歌似乎也这么干了。

 

据The Information报道,前谷歌人工智能研究员Jacob Devlin最近离开公司加入了OpenAI,但在此之前,他爆料曾向谷歌母公司Alphabet的CEO 桑达尔·皮查伊(Sundar Pichai)警告,谷歌的聊天机器人Bard正在以一种间接的方式从ChatGPT获取数据。

据Devlin描述,Bard的开发团队访问了一个名为ShareGPT的网站,该网站分享发布了大量用户通过ChatGPT获取的聊天内容。这意味着,Bard使用了ChatGPT现成的数据来“武装”自己,相当于窃取了ChatGPT的早期成果。

对此,谷歌发言人 Chris Pappas 很快向媒体发布声明,坚决而明确地表示,"Bard没有使用任何ShareGPT或ChatGPT的数据进行训练。(“Bard is not trained on any data from ShareGPT or ChatGPT.”)"

对于媒体追问谷歌Bard此前是否曾经利用过ChatGPT的数据,Pappas拒绝回答,坚称自己能说的只是如上声明内容。

这一事件不由得令人想起日前百度文心一言遭遇的类似质疑。

3月下旬,有网友发文质疑百度文心一言作画实质上是“把中文句子机翻成英语单词,拿去用国外刚刚开源的人工智能Stable Diffusion生成了图画,再返给你,说是自己画的。”

当时网友举的例子包括在文心一言输入指令,要求其画出“鼠标和总线”,文心一言作出的画面是“老鼠和公共汽车”,因为“鼠标”和“总线”对于的英文是“mouse”和“bus”。

对此百度方面也是紧急回应。3月23日,百度发布声明称,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。在大模型训练中,百度使用的是全球互联网公开数据,符合行业惯例。同时表示文心一言正在使用过程中不断学习和成长,希望大家给自研技术和产品一点信心。

随后,百度对类似问题做了修正,用户很快发现相关问题已经不存在,表明类似情况正随着用户反馈而被修正。

对于百度文心一言的问题,业界专家也表示使用网络公开数据是行业基本操作。这个行业存在一批专门为AI应用训练数据的中间服供商,它们基于公开数据标注训练的AI数据集确实存在同时被多个AI应用采用的情况。

不过业内基本操作在消费者层面可能不会得到同样的理解和认同,此番谷歌Bard被曝使用ChatGPT的数据进行训练也在国外引发轩然大波,不少网友指责谷歌是在盗窃OpenAI的成果。

包括网站信息在内的网络公开数据很容易被技术手段抓取,这对搜索引擎出身的谷歌更是小菜一碟。加之这样的爆料来自谷歌刚离职的员工,可信度自然提升了一大截。

不过也有网友指出,Devlin离开谷歌AI团队后转而就加入了竞争对手OpenAI,其爆料难免涉及商业利益,真实度有待进一步确认。

不过在极客网看来,不管这样的事件真实度如何,都充分表明一个“铁律”:AI大模型领域真是一步落后步步落后,后来者想要赶上先发者是水平,非常不容易。

这背后的影响因素有很多,包括算法、算力,以及训练数据的质量等。更重要的是,先发的AI大模型在探明成功之路后,便会一直训练、一直进化,不会停下来等待追赶者。

正因为如此,OpenAI的GPT已经很快由GPT-3升级到了GPT-4时代,为此还引发了包括马斯克在内的多位名人联名发布公开信,呼吁大公司暂停大模型的研发速度,避免威胁人类。

 

李彦宏此前面对媒体采访时也表示,尽管在某些领域表现更出色,总体看百度文心一言与OpenAI ChatGPT的水平还有一两个月的差距。他同时指出,ChatGPT早期刚推出时外界反馈比文心一言还要糟糕。

对于谷歌Bard来说,还有一个不利消息是据传谷歌的 Brain 人工智能团队正在与另一家隶属于 Alphabet 的人工智能公司 DeepMind 合作,共同进行一个代号为 Gemini 的新项目,目标是开发出一个能与 OpenAI的GPT竞争的产品。这似乎在暗示,谷歌对Bard并不自信,希望开发更领先的AI大模型,打造更先进的AI聊天机器人。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。