首页 > 快讯 > 破旧立新！Mini-o3 开源架构引领视觉推理新纪元，复杂思考迎刃而解

破旧立新！Mini-o3 开源架构引领视觉推理新纪元，复杂思考迎刃而解

发布时间：2025-09-16 10:32:02 | 责任编辑：张毅 | 浏览量：156 次

近日，字节跳动与香港大学联合推出了一款全新的开源视觉推理模型 ——Mini-o3，标志着多轮视觉推理技术的又一重大突破。与以往只能进行1-2轮对话的视觉语言模型（VLM）不同，Mini-o3在训练时限制了对话轮数为6轮，但在测试阶段却能将推理轮数扩展至数十轮，极大提升了视觉问题处理的能力。
Mini-o3的强大之处在于其在高难度视觉搜索任务中实现了深度推理，达到当前技术的顶尖水平。这得益于该模型的三个核心设计要素。首先，研究团队构建了一个名为 VisualProbe 的视觉探测数据集，包含数千个针对探索性推理设计的视觉搜索难题。其次，他们开发了一种迭代数据收集流程，使模型能够学习深度优先搜索、试错探索和目标维持等多种推理策略。最后，研究团队提出了超轮次掩码策略，在强化学习过程中避免对达到最大交互轮次的回答进行惩罚，从而有效提升了训练效率和测试扩展性。
训练 Mini-o3的过程分为两个阶段。第一阶段是冷启动监督微调（SFT），旨在激活多轮工具使用能力，研究团队通过上下文学习方式收集了大量高质量的推理轨迹。第二阶段是强化学习(RL)，该阶段通过降低图像像素限制和引入超轮次掩码机制，极大提高了模型的互动轮次和推理能力。
Mini-o3在多个视觉搜索基准上表现优异，超越了现有的开源模型。研究人员通过对比实验，发现冷启动 SFT 和超轮次掩码技术是提升推理能力的关键所在。此外，合理的最大像素预算设置对于模型性能的优化也至关重要。
Mini-o3的推出不仅在技术上实现了新的高度，也为未来多轮视觉推理的发展提供了新的方向。这个模型的成功标志着在无需消耗大量训练资源的情况下，深度思考和复杂推理的实现变得更加可能。
论文地址：https://arxiv.org/pdf/2509.07969

这是一篇关于颠覆传统！Mini-o3 开源模型实现超长视觉推理，深度思考不再是难题的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：挑战常规模式！Mini-o3 开源框架助力超远距离视觉解析，深度认知变得轻松易行

下一篇：谷歌重申AI摘要的重要性和健康网络的价值

破旧立新！Mini-o3 开源架构引领视觉推理新纪元，复杂思考迎刃而解

最新Ai信息

最新Ai工具

热门AI推荐