首页 > 快讯 > DeepMind最新TIPSv2研究:使AI能深度理解图片,而不仅仅是表面浏览

DeepMind最新TIPSv2研究:使AI能深度理解图片,而不仅仅是表面浏览

发布时间:2026-04-16 16:45:41 | 责任编辑:吴昊 | 浏览量:20 次

现在的AI看图,其实有个隐藏的短板。
问它"这张图里有什么",它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里",它就开始含糊了。这不是个别模型的问题,而是整个视觉-语言大模型领域长期存在的通病——全局理解强,局部定位弱。
谷歌DeepMind在最新论文中提出了TIPSv2方案,专门来啃这块硬骨头。
研究团队在调查中发现了一个反直觉的现象:在精细分割任务上,参数量少的"学生模型"表现经常碾压体量更大的"教师模型"。原因在于,蒸馏过程移除了遮盖机制,迫使模型学习整张图的所有细节,形成了"全区域监督"。受此启发,TIPSv2围绕这一发现做出了三项关键改进。
第一项是iBOT++。传统预训练只对图像中被遮盖的区域计算损失,可见区域处于"放养"状态,局部语义容易漂移。iBOT++要求模型同时对所有可见区域进行精确监督,相当于从"猜谜游戏"升级为"全文精读"。仅这一项改动,零样本分割性能就直接提升了14.1个百分点。
第二项是Head-only EMA。传统自监督训练需要在显存里维护两份几乎相同的大模型,开销极大。TIPSv2发现图文对比损失本身已经能稳定主干网络,因此EMA只需作用于最后的投影头,主干不再复制。结果是训练参数量直接缩减约42%,速度更快,性能几乎无损。
第三项是多粒度文本搭配。训练时将网页简短描述、中等详细描述和Gemini生成的长描述混合随机喂给模型,难易交替,既防止模型因任务太简单而"偷懒",又确保细节不丢失。
最终效果相当扎实。TIPSv2在9大任务、20个权威数据集上完成冻结评估,零样本语义分割刷新业界最优,图文检索与分类击败了参数量比自身大56%的对比模型,纯视觉任务也全面跻身前列。
目前TIPSv2的代码与模型权重已全面开源。对于医疗影像、自动驾驶、工业检测等需要高精度图像理解的团队来说,这套方案值得认真评估。
论文地址:https://www.alphaxiv.org/abs/2604.12012

DeepMind最新TIPSv2研究:使AI能深度理解图片,而不仅仅是表面浏览

这是一篇关于谷歌DeepMind新研究TIPSv2:让AI真正"看懂"图片,而不只是"扫一眼"的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐