2025 年 Google I/O 开发者大会刚落下帷幕,毫无疑问,人工智能不仅仅是一项功能,更是 Google 雄心勃勃的未来架构的支柱。这场在山景城举行的年度开发者大会,强有力地宣示了 Google 的决心:通过“更加个性化、主动性和强大的”人工智能,开启一个“探索与奇迹的全新黄金时代”。这一愿景的核心在于将 Gemini 打造成“世界典范”,并打造一个真正的“通用 AI 助手”。
超越语言,迈向“世界模型”
谷歌在人工智能基础研究方面拥有多年经验,从开创 Transformer 架构到开发 AlphaGo 等代理系统,如今正专注于扩展其最佳多模态基础模型 Gemini 2.5 Pro,使其成为一个“世界模型”。这项雄心勃勃的计划旨在使 Gemini 具备“像大脑一样,通过理解和模拟世界的各个方面来制定计划并想象新体验”的能力。
谷歌展示了该方向的显著进步。从训练智能体掌握围棋和星际争霸等复杂游戏,到打造 Genie 2(可根据单个图像提示生成交互式 3D 模拟环境),该公司正在稳步奠定基础。Gemini 利用世界知识和推理模拟自然环境,Veo 对视频生成中物理的直观理解,以及 Gemini Robotics 教会机器人抓握、遵循指令和动态调整的能力,都凸显了这些新兴“世界模型”能力的闪光点。
双子座进化成世界模型,被誉为迈向一种全新、更通用、更实用的人工智能——通用人工智能助手——的“关键一步”。未来的助手将具备智能、情境感知能力,并能够在任何设备上进行规划和采取行动。
阿斯特拉计划与“通用人工智能助手”的曙光
谷歌人工智能努力的最终愿景是将 Gemini 应用程序转变为“通用人工智能助手”——可以处理日常任务、日常管理并提供令人愉快的建议,从而“让我们更有效率,丰富我们的生活”。
这一未来建立在 Project Astra 的基础之上。Project Astra 是去年的一个研究原型,展示了视频理解、屏幕共享和记忆方面的突破性能力。谷歌透露,在过去一年中,这些功能已集成到Gemini Live中,现已面向更多用户体验。持续的改进包括更自然的语音输出和原生音频、增强的记忆功能以及新增的计算机控制功能。
谷歌目前正在收集来自可靠测试人员的反馈,旨在将这些高级功能引入 Gemini Live、全新的搜索体验、面向开发者的 Live API,甚至智能眼镜等新形态的设备。在整个开发过程中,安全和责任始终是重中之重,谷歌重点介绍了一个大型研究项目,旨在探索高级人工智能助手的伦理影响。
Mariner 项目:精简未来的多任务代理
谷歌进一步展示了其对代理能力的承诺,并发布了Mariner 项目的最新进展。该项目是一个探索人机交互未来发展的研究原型,首先从浏览器开始。Mariner 项目于去年 12 月启动,并根据值得信赖的测试人员的反馈不断完善,目前已拥有一个能够同时完成多达十项不同任务的代理系统。这些代理可以同时执行信息查找、预订、促成购买、进行研究等多项任务。
更新后的 Project Mariner 现已可供美国的 Google AI Ultra 订阅用户使用,并计划将其计算机使用功能集成到 Gemini API 中,并在全年将其更多功能引入其他 Google 产品。
人工智能概述和搜索的重新构想
此次面向消费者的公告中,最引人瞩目的是谷歌搜索AI模式的正式发布,该模式现已面向所有美国用户开放,并由Gemini 2.5提供支持。谷歌称这是“过去十年搜索领域最成功的发布之一”,其前身AI概览已覆盖全球超过15亿用户。
AI 模式承诺提供“端到端 AI 搜索体验”,让用户能够处理更长、更复杂的查询(通常是传统搜索长度的两到三倍),并通过后续问题进行更深入的探究。这种对话式转变旨在将搜索从关键词驱动的工具转变为具有高级推理能力的智能代理。
搜索的主要增强功能和未来发展方向包括:
深度研究:AI 模式可以进行大量并行搜索,以编制全面且有上下文的响应。个人背景:利用用户历史记录和其他 Google 产品,AI 模式将提供个性化建议。多种响应格式:动态生成交互式列表、图表和视觉呈现。Agentic 功能(来自 Project Mariner):很快,AI 模式将协助完成预订和购买等现实世界的任务。人工智能购物:革命性的虚拟试穿功能让用户能够想象衣服穿在自己身上的视觉效果,同时人工智能代理可以跟踪价格并完成购买。谷歌还表示,AI 模式的功能最终将无缝融入核心搜索体验,这预示着未来智能对话式 AI 将成为默认设置。
超越搜索:人工智能的普及
AI 集成已扩展到整个 Google 生态系统:
Android XR:谷歌发布了备受期待的混合现实操作系统 Android XR,该系统专为沉浸式头显和时尚智能眼镜而设计,其合作对象包括三星的“Project Moohan”XR头显以及Gentle Monster和Warby Parker的智能眼镜。Android XR将把Gemini的智能功能引入这些设备,实现实时翻译、免提消息传递和导航。生成媒体工具:谷歌宣布其生成式人工智能模型迎来重大升级。Veo3现在除了视频之外,还能生成音频(对话和音效),而Imagen 4 则提升了照片级真实感和细致的文本渲染。Flow:一款新的 AI 电影制作应用程序 Flow 允许用户使用高级控制来创建和编辑 AI 生成的视频内容。Gemini 应用更新:具有对话式交互功能的“Gemini Live”现已免费向所有 Android 和 iOS 用户开放。Gemini2.5 Pro引入了增强型推理模式“Deep Think”。Google Beam(以前称为 Project Starline):这个 AI 优先的 3D 视频通信平台承诺为远程交互提供沉浸式 3D 呈现。Gmail AI 集成:个性化智能回复现在将模拟用户写作风格,并且“收件箱清理”将允许对话式批量删除电子邮件。新的订阅等级:“Google AI Ultra”是针对高级 AI 模型和实验功能的高级订阅,与“Google AI Pro”一起推出。目前,超过 700 万名开发者使用 Gemini 进行开发,每月处理的令牌数量高达 480 万亿,谷歌正以前所未有的速度加速人工智能的普及。2025 年 Google I/O 大会明确展现了谷歌致力于“人工智能优先”未来的决心,智能代理和高级模型将无缝集成到日常工具中,为用户提供前所未有的功能,真正开启数字交互的新时代。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。