语音能力再突破!讯飞星火语音大模型即将发布

人工智能快速发展催生语音合成技术不断成熟,让机器不仅能“开口说话”,还能“谈心交心”,在语音技术的突破下,人机交互将迎来新的发展阶段。1月30日,讯飞星火认知大模型V3.5升级发布会即将举行,会上将同步发布讯飞星火语音大模型, 此外还将发布开源大模型等。

2023年5月6日,科大讯飞正式发布了讯飞星火认知大模型,可以基于自然对话方式完成用户需求理解与任务执行。它还能支持“语音输入”及“语音播报”功能,可以实现对文本内容的朗读和纯享语音对话,这两项功能丰富了大模型的交互方式,拓宽了其场景应用的边界。

自首发以来,星火认知大模型经历V1.5版本的迭代,于去年8月15日如期迎来V2.0版本,对代码能力进行了代码生成、代码补齐、代码纠错、代码解释、单元测试生成5个维度升级,其多模态能力的升级具体体现在图像描述、图像问答、识图创作等多个维度。

去年10月24日,在第六届世界声博会暨2023科大讯飞全球1024开发者节的主论坛上,星火认知大模型V3.0正式发布,从文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力方面都有了持续的提升。星火V3.0进一步升级了多模态指令跟随与细节表达等能力,实现从多轮对话、主动对话再到启发式对话的跨越。

作为首个基于全国产化算力平台训练的全民开放大模型,讯飞星火认知大模型V3.5将打造更实用、更通用的大模型底座。据了解,1月30日,讯飞星火认知大模型V3.5发布会上将公布在语音能力方面实现的重要突破。

科大讯飞从语音起家,多年来在语音识别、语音合成、声音事件检测等多个领域始终保持源头核心技术创新迭代,并收获多项相关国际权威赛事和评测冠军。语音识别方面,科大讯飞继2016年参与以来,连续四届在国际多通道语音分离与识别大赛CHiME夺冠,领跑国际竞争对手;语音合成方面,科大讯飞获国际语音合成大赛Blizzard Challenge十四连冠,屡次在自然度、相似度等指标上打破纪录;在声音事件检测上,科大讯飞获2020、2022和2023年国际声学场景和事件检测及分类挑战赛DCASE多项冠军,展现了在智能音频技术领域的不俗实力。

持续技术创新的同时,科大讯飞也将智能语音技术赋能教育、医疗、金融、汽车、工业等多个行业领域,科大讯飞在不断推动智能语音技术革新的同时,也积极拓展其应用范围,与各行各业深度融合,为用户带来更加丰富和便捷的交互体验。不久前,科大讯飞在国际车载多通道语音识别挑战赛中取得ASR和ASDR两个赛道的第一名,相关技术已经在车载领域落地应用,有效提升了车内语音识别准确率,让车上多个位置的乘客与语音助手交互实现互不干扰,充分展现了新技术赋能行业新变革的重要价值。

从2021年语音云平台问世和讯飞输入法上线语音输入,到讯飞翻译机、AI学习机、录音笔、办公本等产品的不断推动,科大讯飞智能语音技术也已深入赋能到C端产品,服务更多用户,为工作、学习、生活提高效率,提供便利。

结合大模型底座,此次即将发布的语音大模型也将带来语音方面的多项技术创新升级和应用体验。智能语音是万物互联机器沟通的入口,语音大模型的发布也将推动全新人机交互变革,带来更便捷的语音交互和更广的语言互通。

投身于通用人工智能技术浪潮,科大讯飞始终以自主创新推动每一次技术跃迁。本次发布的星火语音大模型将以全球领先的主流语种能力,引领万物互联时代的人机交互革命。期待在大模型技术革新浪潮下,语音能力会实现更高的突破,未来将与多领域进行深度融合,持续赋能更多产品落地,实现多语种和个性化的全面提升。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )