一手测评讯飞星火后,发现刘庆峰在发布会上说的都是“大实话”

自去年11月30日ChatGPT发布以来,认知大模型技术快速走完了市场验证阶段,短短一个多月全球用户数破亿,直接吸引了国内众多巨头“参战”。从技术形态看,ChatGPT是标准的AIGC(生成式AI)产品,利用现有文本、音频或图像技术生成新内容,未来将朝着多模态融合路径发展。 5月6日,科大讯飞召开了星火认知大模型成果发布会,其各项能力展示让我看到了国产大模型的新希望。

虽然笔者无法亲临发布会现场,但也在当天第一时间注册并体验了产品。跟很多人一样,当我用完讯飞星火后大吃一惊,没想到它竟到了如此高度。据悉,讯飞星火认知大模型在文本生成和数学能力上,已经国内显著领先,且相比ChatGPT也具有一定优势;在语言理解和知识问答方面也达到接近ChatGPT水平。同时科大讯飞根据认知智能全国重点实验室牵头设计的“通用认知智能大模型评测体系”测试得出了以上结论,该评测体系还获得了中科院人工智能产学研产业联盟与长三角人工智能产业链联盟的认可,这两大联盟分别侧重源头技术创新和产业链应用落地,在行业内拥有举足轻重的“话语权”。

当登陆星火认知大模型后,我主要围绕知识问答、文本生成、和数学能力展开。第一题我就给它挖了一个大大的坑——“爆炒螺丝钉这道菜怎么做?”,之前用其他两个国产大模型回答这道题,他俩双双入坑,真把“爆炒螺丝钉”理解为一道菜,还像模像样的给出了菜谱做法。而星火就很聪明,它直接表明“爆炒螺丝钉”这道菜并不存在,并通过逻辑推理说明了缘由,因为螺丝钉是金属制品无法烹饪和食用,最后还贴心地问我是不是想要了解螺蛳粉或其他美食的做法,这回答太机智了。

再来一道文本生成的提问,我看发布会上刘庆峰透露了纯大模型技术的待攻克缺陷,其中一点就有“新知识难以及时更新”,比如ChatGPT的训练数据库仅更新至2021年,而星火的训练数据库已更新至2022年,因此星火能给出去年五一游客量的提问。而我今年受《三体》电视剧影响,对外星人非常着迷,随即让星火写一篇“浩瀚宇宙真的有外星人”的文章,结果它洋洋洒洒写了一篇644字的小作文,不仅文笔流畅,而且还涵盖了物理、地理等科学知识,不在“有没有”上浪费口舌,而是用逻辑推理给出了多种合理解释,令我信服。

再来一道困扰我很久的数学题,这道题在发布会上也有演示,那就是“股票昨天涨了10%,今天又跌了10%,最终到底是涨是跌”,我可以说90%的人都误以为不赚不赔,但实际上呢?星火假设股票初始价格为100元,再通过两组计算解出了正确答案,最终股票价格是跌了1元。作为一个8岁孩子的家长,我突然灵机一动,以后检查孩子数学作业,我不懂的数学题可以让星火替我解题。这或许是刘庆峰那句“一个更美好的世界将始于我们每个人的提问,期待让星火大模型成为每个人的AI助手”的生动写照。当然,目前可供普通用户使用的星火认知大模型,还没有发布会上演示的菜单识别等功能。但可以预见的是,未来认知大模型一定是朝着文字、语音、图片甚至视频等多模态融合方向去发展,这样就能让星火更深入的参与艺术创作等领域。

在发布会上,刘庆峰还宣布了年内星火大模型技术持续升级的三个关键里程碑节点:6月9日,将突破开放式问答、多轮对话能力明显提升、数学能力再升级;8月15日,代码能力升级以及多模态交互能力提升,希望能帮助到更多的合作伙伴及开发者团队;10月24日,将实现通用模型对标ChatGPT,中文超越ChatGPT的当前版本,英文能做到相当水平,并在教育、医疗等领域做到业界领先。在实际使用星火过程中,我偶尔也会遇到星火出现大模型的通病,比如张冠李戴等,但看到科大讯飞公布的三个节点,就可以了解到星火还在不断进化,那一些通病也是情有可原,整体来看,讯飞星火回答完整度和准确率还是很高的。

如果你也想体验讯飞星火,可以直接用百度搜索“讯飞星火”关键词,跳转官网注册后即可使用!

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )