首页 > 快讯 > DeepMind最新TIPSv2研究：使AI能深度理解图片，而不仅仅是表面浏览

DeepMind最新TIPSv2研究：使AI能深度理解图片，而不仅仅是表面浏览

发布时间：2026-04-16 16:45:41 | 责任编辑：吴昊 | 浏览量：71 次

现在的AI看图，其实有个隐藏的短板。
问它"这张图里有什么"，它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里"，它就开始含糊了。这不是个别模型的问题，而是整个视觉-语言大模型领域长期存在的通病——全局理解强，局部定位弱。
谷歌DeepMind在最新论文中提出了TIPSv2方案，专门来啃这块硬骨头。
研究团队在调查中发现了一个反直觉的现象:在精细分割任务上，参数量少的"学生模型"表现经常碾压体量更大的"教师模型"。原因在于，蒸馏过程移除了遮盖机制，迫使模型学习整张图的所有细节，形成了"全区域监督"。受此启发，TIPSv2围绕这一发现做出了三项关键改进。
第一项是iBOT++。传统预训练只对图像中被遮盖的区域计算损失，可见区域处于"放养"状态，局部语义容易漂移。iBOT++要求模型同时对所有可见区域进行精确监督，相当于从"猜谜游戏"升级为"全文精读"。仅这一项改动，零样本分割性能就直接提升了14.1个百分点。
第二项是Head-only EMA。传统自监督训练需要在显存里维护两份几乎相同的大模型，开销极大。TIPSv2发现图文对比损失本身已经能稳定主干网络，因此EMA只需作用于最后的投影头，主干不再复制。结果是训练参数量直接缩减约42%，速度更快，性能几乎无损。
第三项是多粒度文本搭配。训练时将网页简短描述、中等详细描述和Gemini生成的长描述混合随机喂给模型，难易交替，既防止模型因任务太简单而"偷懒"，又确保细节不丢失。
最终效果相当扎实。TIPSv2在9大任务、20个权威数据集上完成冻结评估，零样本语义分割刷新业界最优，图文检索与分类击败了参数量比自身大56%的对比模型，纯视觉任务也全面跻身前列。
目前TIPSv2的代码与模型权重已全面开源。对于医疗影像、自动驾驶、工业检测等需要高精度图像理解的团队来说，这套方案值得认真评估。
论文地址：https://www.alphaxiv.org/abs/2604.12012

这是一篇关于谷歌DeepMind新研究TIPSv2：让AI真正"看懂"图片，而不只是"扫一眼"的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：全球首个开源量子AI模型由NVIDIA推出，量子纠错效能提升三倍

下一篇：京东推出JoyEgoCam超高清采集设备，打造具身智能训练完整闭环

DeepMind最新TIPSv2研究：使AI能深度理解图片，而不仅仅是表面浏览

最新Ai信息

最新Ai工具

热门AI推荐