谷歌近日宣布,旗下人工智能助手Gemini Live将推出一系列新功能,旨在提升用户与AI的实时交互体验。这些功能计划于8月28日随全新Pixel 10系列手机首发,并逐步扩展至其他安卓设备和iOS平台。其中,屏幕内容高亮显示和语音角色模仿功能尤为引人关注,展现了谷歌在AI助手领域的持续创新。
首先,Gemini Live新增的屏幕内容高亮功能允许用户在共享摄像头画面时,由AI助手直接在屏幕上突出显示特定物品。例如,当用户需要在一堆工具中快速识别合适的工具时,只需将手机摄像头对准目标区域,Gemini Live便会自动圈出正确选项。这一功能基于计算机视觉技术,能够实时分析图像内容,并结合上下文提供精准建议。谷歌表示,该技术不仅提升了日常任务的效率,还为视觉辅助应用提供了新的可能性。
与此同时,谷歌还为Gemini Live引入了先进的音频模型,显著改善了语音交互的自然度和表现力。新模型能够更准确地捕捉人类语音的语调、节奏和音高变化,使AI助手的回应更加贴合对话情境。例如,当用户讨论压力较大的话题时,Gemini会自动调整为更平静的语调,以提供更舒适的交流体验。此外,用户还可以根据需要调整语速,或要求AI以特定角色或历史人物的口音讲述故事,从而营造更具沉浸感的叙事效果。
除了视觉和语音功能的升级,Gemini Live还进一步扩展了与第三方应用的整合能力。用户可以在与AI对话的过程中直接调用消息、电话或时钟等应用执行任务。例如,在规划路线时,若用户意识到可能迟到,可以中断当前对话并指令Gemini代为发送短信通知联系人。这种无缝切换和多任务处理能力体现了谷歌在AI生态整合方面的深入布局。
从技术层面看,这些新功能依赖于谷歌在机器学习、自然语言处理和计算机视觉领域的积累。屏幕高亮功能结合了实时图像识别与语义理解,而语音模型则采用了更先进的声学建模和情感分析算法。谷歌强调,这些改进不仅提升了用户体验,也为未来AI助手的发展方向提供了重要参考。
总体而言,Gemini Live的更新展示了谷歌在AI助手个性化与实用化方面的努力。通过增强视觉交互、语音表现力以及应用整合,谷歌旨在使AI助手更加贴近用户需求,成为日常生活中更高效的伙伴。随着Pixel 10系列的推出,这些功能将率先与用户见面,并逐步覆盖更广泛的设备平台。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )