首页 > 快讯 > 破旧立新!Mini-o3 开源架构引领视觉推理新纪元,复杂思考迎刃而解

破旧立新!Mini-o3 开源架构引领视觉推理新纪元,复杂思考迎刃而解

发布时间:2025-09-16 10:32:02 | 责任编辑:张毅 | 浏览量:4 次

近日,字节跳动与香港大学联合推出了一款全新的开源视觉推理模型 ——Mini-o3,标志着多轮视觉推理技术的又一重大突破。与以往只能进行1-2轮对话的视觉语言模型(VLM)不同,Mini-o3在训练时限制了对话轮数为6轮,但在测试阶段却能将推理轮数扩展至数十轮,极大提升了视觉问题处理的能力。
Mini-o3的强大之处在于其在高难度视觉搜索任务中实现了深度推理,达到当前技术的顶尖水平。这得益于该模型的三个核心设计要素。首先,研究团队构建了一个名为 VisualProbe 的视觉探测数据集,包含数千个针对探索性推理设计的视觉搜索难题。其次,他们开发了一种迭代数据收集流程,使模型能够学习深度优先搜索、试错探索和目标维持等多种推理策略。最后,研究团队提出了超轮次掩码策略,在强化学习过程中避免对达到最大交互轮次的回答进行惩罚,从而有效提升了训练效率和测试扩展性。
训练 Mini-o3的过程分为两个阶段。第一阶段是冷启动监督微调(SFT),旨在激活多轮工具使用能力,研究团队通过上下文学习方式收集了大量高质量的推理轨迹。第二阶段是强化学习(RL),该阶段通过降低图像像素限制和引入超轮次掩码机制,极大提高了模型的互动轮次和推理能力。
Mini-o3在多个视觉搜索基准上表现优异,超越了现有的开源模型。研究人员通过对比实验,发现冷启动 SFT 和超轮次掩码技术是提升推理能力的关键所在。此外,合理的最大像素预算设置对于模型性能的优化也至关重要。
Mini-o3的推出不仅在技术上实现了新的高度,也为未来多轮视觉推理的发展提供了新的方向。这个模型的成功标志着在无需消耗大量训练资源的情况下,深度思考和复杂推理的实现变得更加可能。
论文地址:https://arxiv.org/pdf/2509.07969

破旧立新!Mini-o3 开源架构引领视觉推理新纪元,复杂思考迎刃而解

这是一篇关于颠覆传统!Mini-o3 开源模型实现超长视觉推理,深度思考不再是难题的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐