首页 > 快讯 > 苹果推出SlowFast-LLaVA适配版模型：在长视频理解上胜过大型模型

苹果推出SlowFast-LLaVA适配版模型：在长视频理解上胜过大型模型

发布时间：2025-08-25 15:14:16 | 责任编辑：吴昊 | 浏览量：50 次

据国外媒体报道，苹果研究团队近日发布了适配版的SlowFast-LLaVA模型，该模型在长视频分析理解任务上表现出色，其性能甚至超越了参数规模更大的模型。这项突破为长视频内容分析提供了高效的全新解决方案。
该模型的核心优势在于其双流架构，这一设计有效解决了传统逐帧处理模式下的信息冗余和上下文窗口溢出问题。慢流（Slow）以低帧率捕捉场景中的静态细节和背景信息，而快流(Fast) 则以高帧率追踪动作的快速变化。这种协同工作模式极大地优化了视频处理效率。
在长视频基准测试中，SlowFast-LLaVA展现了卓越性能。其10亿、30亿和70亿参数版本均取得了优异成绩。例如，参数仅为10亿的模型在LongVideoBench的General VideoQA任务中获得了56.6分，而70亿参数版本在Long-Form Video Understanding任务中更是达到了71.5分的高分。除了视频理解，该模型在知识推理和OCR等图像理解任务上同样表现出色。
尽管该模型表现出众，目前仍存在一定局限性，例如输入帧长限制在128帧，可能导致关键信息的遗漏。苹果团队表示，未来将继续探索内存优化技术以提升模型性能。
SlowFast-LLaVA基于公开数据集训练并已开源，为整个AI社区在长视频理解领域提供了新的思路和高效工具。

苹果研究团队于 2025 年 8 月 23 日开源了 SlowFast-LLaVA-1.5 长视频多模态大语言模型，该模型在 1B、3B、7B 参数规模下均刷新了 LongVideoBench、MLVU 等基准测试的 SOTA 纪录

。

当前视频理解模型普遍存在依赖长上下文窗口、训练复杂及图像理解能力弱等局限。苹果采用创新双流架构，通过“慢流”捕捉细节、“快流”追踪动态，显著提升了处理效率。该模型将输入视频帧数固定为 128（快流 96 帧，慢流 32 帧），适配各种时长视频，在降低计算和显存需求的同时，兼顾了视频与图像的通用理解能力

。

此外，SlowFast-LLaVA-1.5 完全基于公开数据集训练，方便学术与产业复现，并已在 GitHub 与 Hugging Face 开源

。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。