Vision-R1:强化学习助力视觉定位,图文模型性能提升 50%
发布时间:2025-04-08 15:16:35 | 责任编辑:字母汇 | 浏览量:50 次
近日,中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)。
当前,图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力,但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面。该方法通过设计一种视觉任务评估驱动的奖励机制,为模型的目标定位能力提供了强有力的支持。
具体而言,Vision-R1的奖励机制包括四个核心部分:首先,它采用了多目标预测的方式,以确保在密集场景中有效评估预测质量;其次,设计了双重格式奖励,以解决长序列预测中的格式错误问题;再者,召回奖励鼓励模型尽可能多地识别目标;最后,精度奖励则确保模型生成的目标框质量更高。这些设计相互作用,形成了 “1+1>2” 的优化效果,使模型在复杂视觉任务中表现更为出色。
为了解决预测高质量目标框的挑战,研究团队还提出了一种渐进式规则调整策略,通过动态调整奖励计算规则,促使模型持续改进其性能。训练过程分为初学阶段和进阶阶段,逐步提高奖励标准,以实现从基础到高精度的转变。
在一系列测试中,Vision-R1在经典目标检测数据集 COCO 和多样场景的 ODINW-13上显示出卓越的性能,无论是基础性能如何,经过 Vision-R1训练后,模型的表现都大幅提升,进一步接近专业定位模型。这一方法不仅有效提升了图文大模型的视觉定位能力,同时也为未来的多模态 AI 应用提供了新的方向。
Vision-R1 是由中国科学院自动化研究所与中科紫东太初团队共同研发的一项新技术。该技术利用类 R1 强化学习技术,显著提升了视觉定位的能力,在目标检测和视觉定位等复杂任务上实现了最高 50% 的性能提升,甚至超过了参数规模超过 10 倍的现有最优模型(SOTA)。
核心技术和设计
- 奖励机制
- 框优先的预测匹配:Vision-R1 采用多目标预测的统一建模方式,对文本序列化的预测结果进行反序列化,提取出每个目标的预测框及其标签,并将预测结果与真实标注进行匹配。
- 双重格式奖励:旨在解决密集场景下长序列预测的格式错误问题,确保预测结果同时满足格式和内容要求。
- 召回奖励:鼓励模型尽可能多地识别目标,针对每个预测目标及其匹配的真实目标(GT),当两者的 IoU 超过预设阈值 ζ 时,视为该预测有效。
- 精度奖励:从单实例角度衡量预测质量,鼓励模型生成高质量的边界框。
- 渐进式规则调整策略
- 差异化策略:扩大预测结果与实际奖励之间的映射差异,通过惩罚低召回率(Recall)和低平均 IoU 的预测,并对高召回率和高 IoU 的预测给予较高奖励。
- 阶段渐近策略:训练过程被划分为初学阶段和进阶阶段,并通过逐步调整阈值 ζ 来实现奖励规则的逐渐变化。
性能评估和测试
- 域内外目标检测评测
- 在经典目标检测数据集 COCO 和多样场景的 ODINW-13 上进行测试,无论基础性能如何,与基线模型相比这些模型在 Vision-R1 训练后性能大幅提升。
- 在模型没有训练的域外定位数据集上进行测试,Vision-R1 在不同模型的四个数据集上取得了平均 6% 的性能提升。
- 模型通用问答能力评测
- Vision-R1 近乎不损失模型的通用能力,在通用问答、图表问答等评测集上模型实现了与基准模型基本一致的性能。
可视化分析
研究团队提供了在 Qwen2.5-VL-7B 模型上使用 Vision-R1 后在多个场景下的目标检测可视化结果。结果显示,Vision-R1 训练后,模型能够更好召回所感兴趣的物体,并进一步提升定位的精度。
开源信息
相关工作论文、模型及数据集代码均已开源:
- 论文地址:https://arxiv.org/pdf/2503.18013
实验结果和对比
模型 | 基线性能 | Vision-R1 训练后性能 | 提升百分比 |
---|---|---|---|
Qwen2.5-VL-7B | XX% | XX% | 50% |
Griffon-G-7B | XX% | XX% | 50% |
在经典 COCO/ODINW 数据集上,Vision-R1 方法相较于基线模型性能的提升显著。实验结果表明,无论基础性能如何,经过 Vision-R1 训练后,模型的表现都大幅提升,甚至超过同系列 SOTA 模型,进一步接近了定位专家模型。
未来方向和思考
- 模型迁移能力:模型能否迁移到视频、三维、以及更多模态的复杂推理场景?
- 强化学习稳定性:是否可以结合其他启发式技术(如 Monte Carlo Tree Search、自监督验证机制)来进一步稳定强化学习过程?
- 推理正确性:如何让多模态推理不仅有“解释可读性”,还要兼顾“鲁棒性”和“正确性”,尤其减少模型产生的不合理自我纠正和幻觉?
Vision-R1 的研究为“多模态大模型的深层推理”提供了新的可能性与动力,未来的研究将探索如何进一步提升模型的推理能力和泛化性。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。