Meta 推出 WebSSL 模型:开启视觉学习的无语言新纪元
发布时间:2025-04-25 14:05:45 | 责任编辑:张毅 | 浏览量:4 次
在人工智能领域,Meta 公司最近推出了 WebSSL 系列模型,这一系列模型的参数规模从3亿到70亿不等,基于纯图像数据进行训练,旨在探索无语言监督的视觉自监督学习(SSL)的巨大潜力。这一新研究为未来的多模态任务带来了新的可能性,也为我们理解视觉表征的学习方式提供了新的视角。
过去,OpenAI 的 CLIP 模型因其在视觉问答(VQA)和文档理解等多模态任务中的优异表现而备受关注。然而,由于数据集的获取复杂性及其规模限制,基于语言的学习方法面临诸多挑战。为了应对这一问题,Meta 决定利用自身的 MetaCLIP 数据集(MC-2B)中的20亿张图像进行训练,完全排除了语言监督的影响。这一策略让研究者们能够深入评估纯视觉自监督学习的表现,而不被数据和模型规模所限制。
WebSSL 模型采用了两种主要的视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。所有模型均使用224×224分辨率的图像进行训练,同时冻结视觉编码器,从而确保结果的差异仅源于预训练策略。这一系列模型在五个容量层级(ViT-1B 至 ViT-7B)上进行训练,并通过 Cambrian-1基准测试进行评估,覆盖了通用视觉理解、知识推理、OCR(光学字符识别)和图表解读等16个 VQA 任务。
实验结果显示,随着模型参数规模的增加,WebSSL 在 VQA 任务中的表现有显著提升,尤其是在 OCR 和图表任务中,其表现甚至超越了 CLIP。此外,通过高分辨率(518px)微调,WebSSL 在文档任务中的表现也大幅提升,缩小了与一些高分辨率模型的差距。
值得一提的是,WebSSL 在无语言监督的情况下,依然展现出与一些预训练语言模型(如 LLaMA-3)良好的对齐性,这意味着大规模视觉模型能够隐式地学习与文本语义相关的特征。这为视觉与语言之间的关系提供了新的思考。
Meta 的 WebSSL 模型不仅在传统的基准测试中表现出色,也为未来无语言学习的研究开辟了新的方向。
Meta 公司于 2025 年 4 月 24 日发布了 WebSSL 系列模型,这是其在无语言视觉学习领域的一次重要探索。
模型背景与目标
以往,以 OpenAI 的 CLIP 为代表的对比语言-图像模型已成为学习视觉表征的主流方法,这类模型在视觉问答(VQA)和文档理解等多模态任务中表现出色,但其高度依赖语言数据,数据集获取的复杂性和规模限制成为其进一步发展的瓶颈。Meta 的 WebSSL 模型旨在探索无语言监督下的视觉自监督学习(SSL)潜力,通过纯图像数据训练,摆脱对语言监督的依赖。
模型架构与训练
WebSSL 系列模型涵盖了 DINO 和 Vision Transformer(ViT)两种架构,参数规模从 3 亿到 70 亿不等。这些模型仅使用 MetaCLIP 数据集(MC-2B)中的 20 亿张图像子集进行训练,完全排除了语言监督的影响。训练过程中,统一使用 224×224 分辨率的图像,并冻结视觉编码器,以确保结果差异仅源于预训练策略。
模型性能表现
-
多模态任务表现:WebSSL 模型在视觉问答(VQA)任务上的表现随着参数规模的增加呈现出接近对数线性的提升趋势,而 CLIP 模型在参数超过 30 亿后性能趋于饱和。在 OCR 和图表任务中,WebSSL 表现尤为突出,经过数据筛选后,仅用 1.3% 的富文本图像进行训练,其在 OCRBench 和 ChartQA 任务中的性能就超越了 CLIP,提升幅度高达 13.6%。
-
传统视觉任务表现:WebSSL 模型在传统基准测试(如 ImageNet-1k 分类、ADE20K 分割)上也保持了强劲表现,部分场景甚至优于 MetaCLIP 和 DINOv2。
-
与语言模型对齐性:尽管 WebSSL 模型在训练过程中未使用任何语言监督,但其仍展现出与预训练语言模型(如 LLaMA-3)的良好对齐性,表明大规模视觉模型能够隐式学习与文本语义相关的特征。
模型意义与展望
WebSSL 模型的发布为视觉学习领域提供了一种新的思路,证明了在无语言监督下,纯视觉自监督学习(SSL)依然能够取得优异的性能。这一成果不仅挑战了以往认为语言监督是学习强大视觉表征的必要条件的假设,还为未来视觉模型的发展提供了更多可能性。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。