首页 > 快讯 > VLM2Vec-V2:一种创新的多模态嵌入学习框架,用于整合图片、视频及其视觉文档的检索

VLM2Vec-V2:一种创新的多模态嵌入学习框架,用于整合图片、视频及其视觉文档的检索

发布时间:2025-07-28 12:24:20 | 责任编辑:张毅 | 浏览量:14 次

在多模态嵌入学习领域,研究人员们不断努力将不同的数据形式连接在一起,以便更好地理解和处理多样化的信息。近期,由 Salesforce Research、加州大学圣巴巴拉分校、滑铁卢大学及清华大学的研究团队共同提出了 VLM2Vec-V2,这是一种全新的多模态嵌入学习框架,旨在统一图像、视频和视觉文档的检索任务。
现有的多模态嵌入模型通常训练于特定的数据集,如 MMEB 和 M-BEIR,主要集中在自然图像和照片上。这些数据集大多来自 MSCOCO、Flickr 和 ImageNet,未能涵盖更广泛的视觉信息类型,例如文档、PDF、网站、视频和幻灯片。这种局限性导致现有的嵌入模型在实际任务中的表现不尽人意,比如文章搜索、网站搜索以及 YouTube 视频搜索。
VLM2Vec-V2的推出,首先扩展了 MMEB 数据集,新增了五种任务类型,包括视觉文档检索、视频检索、时间定位、视频分类和视频问答。这一扩展为多模态学习提供了更丰富的评估标准。此外,VLM2Vec-V2作为通用的嵌入模型,支持多种输入形式,在新任务和传统图像基准测试上都表现出色,为研究和实际应用奠定了更灵活和可扩展的基础。
VLM2Vec-V2采用了 Qwen2-VL 作为其核心架构,后者在多模态处理方面具有独特的优势。Qwen2-VL 具备三大关键特性,分别是简单动态分辨率、多模态旋转位置嵌入(M-RoPE)以及结合二维和三维卷积的统一框架。为了实现跨多种数据源的有效多任务训练,VLM2Vec-V2还引入了一种灵活的数据采样管道,利用预设的采样权重表和交错的子批处理策略来提升对比学习的稳定性。
在综合78个数据集的评估中,VLM2Vec-V2以58.0的最高平均得分领先于多个强基线模型,并在图像任务和视频任务上展现出优异的表现。尽管在视觉文档检索方面略逊于 ColPali 模型,VLM2Vec-V2在多模态学习的统一框架上为未来的研究指明了方向。
项目:https://github.com/TIGER-AI-Lab/VLM2Vec
huggingface:https://huggingface.co/VLM2Vec/VLM2Vec-V2.0
划重点:
📊 VLM2Vec-V2是一个新推出的多模态嵌入学习框架,能够统一图像、视频和视觉文档的检索任务。
📝 新模型的评估数据集 MMEB-V2增加了多种任务类型,提升了多模态学习的丰富性和准确性。
🚀 VLM2Vec-V2在多个任务中表现优异,成为了多模态学习领域的重要基准模型。

VLM2Vec-V2:一种创新的多模态嵌入学习框架,用于整合图片、视频及其视觉文档的检索

VLM2Vec-V2 是由 Salesforce 研究团队提出的统一多模态嵌入学习框架,旨在解决现有模型(如 VLM2Vec、E5-V、GME)主要聚焦自然图像、对视频和视觉文档支持有限的问题,从而更好地服务于 AI 代理、多模态搜索与推荐以及检索增强生成(RAG)等现实场景。

该框架包含两大核心贡献:

  1. MMEB-V2:作为扩展版的综合基准,新增了视觉文档检索、视频检索、时间定位(temporal grounding)、视频分类和视频问答等五种任务类型,全面覆盖文本、图像、视频和视觉文档输入,为模型评估提供了更严苛、更全面的“考场”。

  2. VLM2Vec-V2:一个支持文本、图像、视频和视觉文档输入的通用嵌入模型,通过对比学习和指令-查询形式的数据格式化方法,学习统一的表示,使不同模态的数据在向量空间中语义相近。

实验结果表明,VLM2Vec-V2(2B 参数版本)在 MMEB-V2 基准测试中取得了 58.0 的总体平均分,全面超越了包括其前身 VLM2Vec 在内的基线模型,尤其在视觉文档(65.4 分)和视频(34.9 分)任务上表现突出,尽管略低于专门优化的模型(如 ColPali)。这证明了统一嵌入学习框架的有效性,为更通用、可扩展的多模态表示学习奠定了基础。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具