首页 > 快讯 > 南开大学联合阿里巴巴发布LLaVA-Scissor视频大模型压缩新技术

南开大学联合阿里巴巴发布LLaVA-Scissor视频大模型压缩新技术

发布时间：2025-08-05 09:48:19 | 责任编辑：吴昊 | 浏览量：294 次

近日，阿里巴巴通义实验室与南开大学计算机科学学院联合发布了一种创新的视频大模型压缩方法 ——LLaVA-Scissor。这一技术的出现旨在应对视频模型处理中的一系列挑战，特别是传统方法在处理视频帧时所面临的高 token 数量带来的推理速度和扩展性问题。
视频模型需要对每一帧进行单独编码，这种序列化处理导致 token 数量激增。尽管传统的 token 压缩方法如 FastV、VisionZip 和 PLLaVA 等在图像领域取得了一定成果，但在视频理解方面却暴露出语义覆盖不足和时序冗余等问题。为此，LLaVA-Scissor 采用了一种基于图论的算法 ——SCC 方法，能够有效识别 token 集中不同的语义区域。
SCC 方法通过计算 token 之间的相似性，构建相似性图，并识别图中的连通分量。每个连通分量中的 token 可以用一个代表性 token 来代替，从而大幅度减少 token 数量。为了提升处理效率，LLaVA-Scissor 采用了两步时空压缩策略，分别进行空间压缩和时间压缩。在空间压缩中，对每一帧进行语义区域的识别，而时间压缩则去除跨帧的冗余信息，确保最终生成的 token 能够高效表示整个视频。
在实验验证方面，LLaVA-Scissor 在多个视频理解基准测试中表现突出，尤其在低 token 保留率下的优势更为明显。例如，在视频问答基准测试中，LLaVA-Scissor 在50% 的 token 保留率下，与原始模型性能相当，而在35% 和10% 的保留率下，其性能优于其他方法。在长视频理解测试中，该方法同样展示了良好的表现，在 EgoSchema 数据集上，LLaVA-Scissor 在35% 的 token 保留率下准确率达到57.94%。
这一创新的压缩技术不仅提升了视频处理的效率，也为未来视频理解和处理的发展开辟了新的方向。LLaVA-Scissor 的推出，无疑将在视频人工智能领域产生积极的影响。
划重点:
🌟 LLaVA-Scissor 是阿里巴巴与南开大学联合开发的创新视频大模型压缩技术，旨在解决传统方法中 token 数量激增的问题。
🔍 SCC 方法通过计算 token 相似性，构建图并识别连通分量，能够有效减少 token 数量并保留关键语义信息。
🏆 LLaVA-Scissor 在多个视频理解基准测试中表现优异，尤其在低 token 保留率下显示出显著的性能优势。

阿里巴巴通义实验室与南开大学计算机科学学院联合推出了 LLaVA-Scissor，这是一种创新的视频大模型压缩技术，旨在解决视频理解中 token 数量激增导致的推理速度慢、扩展性差等问题。LLaVA-Scissor 的核心是 语义连通组件（SCC）方法，一种基于图论的算法，通过计算 token 之间的相似性构建图并识别连通分量，从而高效压缩 token，同时避免局部偏见，捕捉全局语义关系。该技术采用 两步时空压缩策略（空间压缩识别每帧语义区域并选择代表性 token，时间压缩去除冗余信息），在 50% 标记保留率下，准确率保持 99.7%，计算量减少约 55%，且无需训练，具有“即插即用”特性，可广泛应用于流媒体、在线教育、智能安防等领域。

相关研究发表于 2025 年 6 月的 arXiv 预印本平台（论文编号 arXiv:2506.21862v1），项目主页为 https://github.com/HumanMLLM/LLaVA-Scissor。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：通义千问宣布开源Qwen-Image：拥有20B参数的MMDiT模型在图像生成技术上取得了前所未有的突破

下一篇： Cloudflare揭露AI新手公司Perplexity试图避开网站访问限制，指责其“隐形爬取”行为

南开大学联合阿里巴巴发布LLaVA-Scissor视频大模型压缩新技术

最新Ai信息

最新Ai工具

热门AI推荐