首页 > 快讯 > 小米AI领域再添劲旅！MiMo-VL-7B-2508 开源模型创新突破，性能显著提升并兼容多思考模式

小米AI领域再添劲旅！MiMo-VL-7B-2508 开源模型创新突破，性能显著提升并兼容多思考模式

发布时间：2025-08-12 09:30:32 | 责任编辑：吴昊 | 浏览量：70 次

小米宣布开源全新版本的多模态大模型——Xiaomi MiMo-VL-7B-2508，并同步推出 SFT 和 RL 两个模型版本。此次升级不仅优化了输出模式，还提升了 RL 训练的稳定性，在多项能力评测中取得了显著进步。同时，用户还可以在“思考模式”和“非思考模式”之间灵活切换，以适应不同场景需求。
与今年5月发布的 MiMo-VL-7B-RL 相比，新版本在多项权威 benchmark 上实现了突破:
学科推理测试 MMMU:从66.7提升至70.6，首次突破70分
文档理解测试 ChartQA:从91.7提升至94.4
GUI 定位测试 ScreenSpot-v2:从90.5提升至92.5
视频理解测试 VideoMME:从67.4提升至70.8
在交互体验上，新版本引入了自主控制的思考模式切换功能。默认的“思考模式”会展示完整推理过程，性能更全面且控制成功率达100%;而“非思考模式”则跳过推理环节，响应速度更快，控制成功率为99.84%，适合对实时性要求高的任务。
根据小米内部 VLM Arena 评分，新版 MiMo-VL-7B-RL-2508获得了1131.2分，明显高于上一代的1093.9分。评测结果显示，该模型在多数基准测试中全面超越前代版本，即便在非思考模式下，也能在感知类任务中保持出色表现。与同类支持思考功能的多模态开源模型相比，MiMo-VL-7B-RL-2508依旧处于领先地位。

小米大模型团队于 2025 年 8 月开源了最新一代多模态大模型 Xiaomi MiMo-VL-7B-2508，包含 强化学习（RL） 和 监督微调（SFT） 两个版本。

性能大幅跃升

新版模型在 学科推理、文档理解、图形界面定位及视频理解 四项核心能力上全面刷新纪录：

MMMU 基准首次突破 70 分大关；
ChartQA 准确率高达 94.4%；
ScreenSpot-v2 达到 92.5%；
VideoMME 提升至 70.8%。

通过优化强化学习稳定性与监督微调流程，模型在内部 VLM Arena 评分从 1093.9 跃升至 1131.2。

思考模式切换

用户可通过 “/no_think” 指令自由切换 “思考” 与 “非思考” 模式：

思考模式（默认）：全程展示推理链条，控制成功率 100%；
非思考模式：直接生成答案，响应更快，成功率 99.84%。

开源与使用建议

MiMo-VL-7B-RL-2508（推荐）：适用于大多数用户，体验和使用。
MiMo-VL-7B-SFT-2508：适合需要自定义微调的场景。

开源地址：

MiMo-VL-7B-RL-2508
MiMo-VL-7B-SFT-2508

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。