小米AI领域再添劲旅!MiMo-VL-7B-2508 开源模型创新突破,性能显著提升并兼容多思考模式
发布时间:2025-08-12 09:30:32 | 责任编辑:吴昊 | 浏览量:8 次
小米宣布开源全新版本的多模态大模型——Xiaomi MiMo-VL-7B-2508,并同步推出 SFT 和 RL 两个模型版本。此次升级不仅优化了输出模式,还提升了 RL 训练的稳定性,在多项能力评测中取得了显著进步。同时,用户还可以在“思考模式”和“非思考模式”之间灵活切换,以适应不同场景需求。
与今年5月发布的 MiMo-VL-7B-RL 相比,新版本在多项权威 benchmark 上实现了突破:
学科推理测试 MMMU:从66.7提升至70.6,首次突破70分
文档理解测试 ChartQA:从91.7提升至94.4
GUI 定位测试 ScreenSpot-v2:从90.5提升至92.5
视频理解测试 VideoMME:从67.4提升至70.8
在交互体验上,新版本引入了自主控制的思考模式切换功能。默认的“思考模式”会展示完整推理过程,性能更全面且控制成功率达100%;而“非思考模式”则跳过推理环节,响应速度更快,控制成功率为99.84%,适合对实时性要求高的任务。
根据小米内部 VLM Arena 评分,新版 MiMo-VL-7B-RL-2508获得了1131.2分,明显高于上一代的1093.9分。评测结果显示,该模型在多数基准测试中全面超越前代版本,即便在非思考模式下,也能在感知类任务中保持出色表现。与同类支持思考功能的多模态开源模型相比,MiMo-VL-7B-RL-2508依旧处于领先地位。
小米大模型团队于 2025 年 8 月开源了最新一代多模态大模型 Xiaomi MiMo-VL-7B-2508,包含 强化学习(RL) 和 监督微调(SFT) 两个版本。
性能大幅跃升
新版模型在 学科推理、文档理解、图形界面定位及视频理解 四项核心能力上全面刷新纪录:
-
MMMU 基准首次突破 70 分大关;
-
ChartQA 准确率高达 94.4%;
-
ScreenSpot-v2 达到 92.5%;
-
VideoMME 提升至 70.8%。
通过优化强化学习稳定性与监督微调流程,模型在内部 VLM Arena 评分从 1093.9 跃升至 1131.2。
思考模式切换
用户可通过 “/no_think” 指令自由切换 “思考” 与 “非思考” 模式:
-
思考模式(默认):全程展示推理链条,控制成功率 100%;
-
非思考模式:直接生成答案,响应更快,成功率 99.84%。
开源与使用建议
-
MiMo-VL-7B-RL-2508(推荐):适用于大多数用户,体验和使用。
-
MiMo-VL-7B-SFT-2508:适合需要自定义微调的场景。
开源地址:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。