小米Xiaomi MiMo-VL多模态大模型现已开放源代码
发布时间:2025-05-30 11:52:55 | 责任编辑:吴昊 | 浏览量:8 次
近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。
MiMo-VL-7B在多模态推理任务上成绩斐然,尽管参数规模仅为7B,却在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,同时也超越了闭源模型GPT-4o。在内部大模型竞技场评估真实用户体验时,MiMo-VL-7B超越GPT-4o,成为开源模型中的佼佼者。在实际应用场景中,该模型在复杂图片推理和问答上表现卓越,在长达10多步的GUI操作上也展现出不错的潜力,甚至能够帮助用户将小米SU7加购至心愿单。
MiMo-VL-7B全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法(MORL)。在多阶段预训练过程中,小米收集、清洗、合成了涵盖图片-文本对、视频-文本对、GUI操作序列等多种数据类型的高质量预训练多模态数据,总计2.4T tokens,并通过分阶段调整不同类型数据的比例,强化了长程多模态推理的能力。混合在线强化学习则融合了文本推理、多模态感知+推理、RLHF等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升了模型的推理、感知性能和用户体验。
相关链接:https://huggingface.co/XiaomiMiMo。
小米于2025年5月30日宣布开源其多模态大模型 Xiaomi MiMo-VL。以下是关于该模型的详细信息:
模型特点
-
参数规模:MiMo-VL的参数规模为7B,尽管参数量相对较小,但在多模态推理任务上表现出色。
-
多模态能力:该模型能够处理图片、视频和语言的通用问答以及理解推理任务,在多个任务上大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B。
-
视觉感知能力:得益于高质量的预训练数据和创新的混合在线强化学习算法(MORL),MiMo-VL在视觉感知任务上表现出色。
技术创新
-
预训练数据:小米收集、清洗和合成了涵盖图片-文本对、视频-文本对、GUI操作序列等多种数据类型的高质量预训练多模态数据,总计2.4T tokens。
-
混合在线强化学习算法(MORL):融合了文本推理、多模态感知+推理、RLHF等反馈信号,并通过在线强化学习算法稳定加速训练。
性能表现
-
在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(如MathVision、MathVerse)中,MiMo-VL大幅领先参数规模更大的阿里模型 Qwen-2.5-VL-72B 和 QVQ-72B-Preview。
-
在内部大模型竞技场评估中,MiMo-VL超越了闭源模型 GPT-4o。
开源信息
-
开源平台:Xiaomi MiMo-VL已开源至 Hugging Face,开源地址为:https://huggingface.co/XiaomiMiMo。
-
技术报告:详细的技术报告可在GitHub上查看:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf。
应用场景
-
教育领域:辅助数学解题和编程学习。
-
智能客服:解答复杂问题,提升问答系统效率。
-
实际应用:在复杂图片推理和问答任务中表现出色,甚至能够帮助用户将商品添加到心愿单。
Xiaomi MiMo-VL的开源为开发者提供了强大的多模态推理工具,也为人工智能技术的发展提供了新的思路和方向。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。