苹果引领AI新潮流:StreamBridge端侧视频大语言模型框架,让视频实时AI响应
随着科技的飞速发展,人工智能(AI)在各个领域的应用日益广泛。近日,科技媒体marktechpost的一篇博文引起了我们的关注。据报道,苹果公司与复旦大学联手,推出了一种名为StreamBridge的端侧视频大语言模型(Video-LLMs)框架,该框架将助力AI理解直播流视频,引领AI新潮流。
首先,我们来探讨一下直播流视频理解的挑战与需求。传统视频大语言模型擅长处理静态视频,但在实时感知的场景下,如机器人技术、自动驾驶等,要求模型能快速理解直播视频流内容,并做出反应。现有的模型在处理多轮实时理解和主动响应方面存在两大难题。
为了解决这些问题,苹果与复旦的研究者们开发了StreamBridge框架。该框架通过引入内存缓冲区和轮次衰减压缩策略,支持长上下文交互。这一创新不仅提升了模型的交互性能,还使其在处理最新视频片段时保留了历史视觉和对话上下文。
此外,该框架还引入了一个轻量化的独立激活模型,无缝集成现有视频大语言模型,实现了主动响应功能。这一创新不仅提升了模型的性能,还使其在无明确指令的情况下及时输出反馈。
为了进一步提升流式视频理解能力,研究团队还推出了Stream-IT数据集。该数据集包含约60万个样本,融合了视频与文本序列,支持多样化的指令格式。这一创新为研究者们提供了丰富的资源,有助于提升流式视频理解能力。
为了验证StreamBridge框架的效果,我们在主流离线模型如LLaVA-OV-7B、Qwen2-VL-7B和Oryx-1.5-7B上进行测试。结果显示,Qwen2-VL在OVO-Bench和Streaming-Bench上的平均分分别提升至71.30和77.04,超越了GPT-4o和Gemini 1.5 Pro等专有模型。这一成果证明了StreamBridge在流式视频理解领域的强大潜力。
Oryx-1.5也取得了显著进步,而LLaVA-OV性能略有下降。然而,通过对Stream-IT数据集的微调,所有模型的表现均得到了提升。这进一步证明了StreamBridge在实时视频理解领域的优势。
总的来说,StreamBridge端侧视频大语言模型框架的推出,将为AI领域带来新的突破。它将助力AI理解直播流视频,使机器人技术、自动驾驶等实时感知场景的性能得到显著提升。作为引领AI新潮流的成果,StreamBridge将为未来带来更多可能性,让我们拭目以待!
以上便是关于StreamBridge端侧视频大语言模型框架的详细介绍。苹果公司与复旦大学的研究者们通过这一创新成果,再次证明了他们在AI领域的领先地位。随着StreamBridge的广泛应用,我们期待看到更多令人兴奋的科技成果涌现。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )