微软推出Kosmos-1，比ChatGPT更强大？

比ChatGPT更强大的AI应用来了？

最近，微软推出了全能型人工智能模型——Kosmos-1。与局限于文本内容（ LLM）的ChatGPT相比，Kosmos-1属于多模式大型语言模型（MLLM），目前能同时理解文字与图像内容，未来会整合更多的输入模式，如音频、视频。

从上图Kosmos-1的应用中我们可以很直观的看出，Kosmos-1和ChatGPT一样具有多轮对话能力、逻辑推理能力等像人类一样的思维能力，并在此基础上增加了图片的输入模式。

除了视觉对话，Kosmos-1还能怎么用？我们来看一下微软研究员在《Language Is Not All You Need》这篇学术论文中所展示的Kosmos-1的应用示例。

图1～2展示了Kosmos-1的图像解释说明能力，有点像小时候我们做的看图说话类题目；图3～6展示了Kosmos-1的视觉应答能力，其中包含图像、网页、数学公式的识别及应答；图7～8展示了Kosmos-1的数字识别能力。

对了，Kosmos-1还是第一个能完成零样本瑞文智商测试的AI，只是准确率还不高，经过指令调教之后，准确率为26%。

和ChatGPT一样，AI不懂的东西我们可以去教它。比如，Kosmos-1无法从图片判断出是哪种啄木鸟，或者说，它并不知道三趾啄木鸟和绒毛啄木鸟的区别，这时候我们可以告诉它这两类啄木鸟的特征分别是什么，帮助它进行判断。

总的来说，Kosmos-1目前既可以进行语言理解、语言对话等语言任务，也可以实现图像说明、视觉识别、视觉对话、视觉智商测试等视觉任务，相当全能。

前有与OpenAI合作的ChatGPT，后有更全能的Kosmos-1，微软在人工智能的赛道上可谓风骚绝代。

要知道，在移动互联网时代，这位老大哥是落后的。

微软成立于 1975 年，凭借着强大的 Windows 操作系统以及软件领域的实力，坐上了科技界的头把交椅。

1998年，谷歌诞生了。

随着移动互联网的崛起，谷歌的安卓系统成为了主流。在自己的强项——操作系统上输给了后起之秀，微软对自己错失良机懊悔不已。

后来微软推出了必应，想在谷歌擅长的搜索引擎领域分一杯羹，但结局大家也都知道——真的只是分了一小杯羹。

而自CEO纳德拉上任后，微软的愿景描述中加入了AI。微软将自身的发展战略从「移动为先、云为先」修改为「智能云和智能边缘计算」。

这次布局的成果我们也看到了，在以聊天机器人为代表的AI之战第一回合中，微软更胜一筹。接下来谷歌会如何反击，我们拭目以待。

微软的发展历程告诉我们，暂时的落后并不可怕，不要纠结已经失利的当下，而要关注充满机遇的未来。及早布局，才能弯道超车。

而我也很有幸见证这一切，一边感慨着科技巨头们的精彩过往，一边期待着下一个超越ChatGPT和Kosmos-1的人工智能。

我并不确定你会不会忽然地出现在街角的咖啡店，但通用人工智能会出现在下一个街角，是确定的。

文中部分图片来自论文《Language Is Not All You Need: Aligning Perception with Language Models》

免责声明：此文内容为第三方自媒体作者发布的观察或评论性文章，所有文字和图片版权归作者所有，且仅代表作者个人观点，与极客网无关。文章仅供读者参考，并请自行核实相关内容。投诉邮箱：editor@fromgeek.com。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

微软推出Kosmos-1，比ChatGPT更强大？

下一篇