首页 > 快讯 > 阿里国际推出了Ovis2.5多模态大模型,引领视觉识别与高级推理技术新突破

阿里国际推出了Ovis2.5多模态大模型,引领视觉识别与高级推理技术新突破

发布时间:2025-08-26 16:06:49 | 责任编辑:吴昊 | 浏览量:14 次

近日,阿里国际正式发布了其新一代多模态大模型 Ovis2.5,并对外开源。这款模型专注于原生分辨率视觉感知、深度推理以及高性价比的场景设计,旨在进一步提升人工智能的应用能力。Ovis2.5在主流多模态评测套件 OpenCompass 上的综合得分相比前一版本 Ovis2有了显著提升,继续在同类开源模型中保持 SOTA(最先进技术)水平。
此次发布的 Ovis2.5包含两个不同参数规模的版本。首先是 Ovis2.5-9B,这一版本在 OpenCompass 评测中获得了78.3的高分,超越了许多参数量更大的模型,并在40B 以下参数规模的开源模型中名列第一。其次,Ovis2.5-2B 的综合得分为73.9,延续了 Ovis 系列 “小身板、大能量” 的理念,特别适合端侧及资源受限的应用场景。
在 Ovis2.5的整体架构上,官方表示进行了系统性创新,主要体现在模型架构、训练策略与数据工程三个方面。模型架构方面,Ovis2.5延续了系列创新的结构化嵌入对齐设计,由三大核心组件构成:动态分辨率的视觉特征提取、视觉词表模块实现视觉与文本的结构对齐,以及以 Qwen3为基础的强大语言处理能力。
在训练策略上,Ovis2.5采用了更精细的五阶段训练方案,包括基础的视觉预训练、多模态预训练以及大规模的指令微调等多个步骤。同时,通过 DPO 和 GRPO 等算法加强偏好对齐和推理能力,有效提升了模型的性能。此外,模型的训练速度实现了3到4倍的端到端加速。
数据工程方面,Ovis2.5的数据量相比 Ovis2增加了50%,重点聚焦于视觉推理、图表、OCR(光学字符识别)和 Grounding 等关键领域。特别是合成了大量与 Qwen3深度适配的 “思考” 数据,极大地激发了模型的反思与推理潜能。
Ovis2.5的代码和模型均已在 GitHub 和 Hugging Face 等平台上线,用户可以通过这些平台获取相关资源,进一步探索其应用潜力。
代码:https://github.com/AIDC-AI/Ovis
模型: https://huggingface.co/AIDC-AI/
划重点:
🌟 Ovis2.5在 OpenCompass 评测中取得78.3的综合得分,继续保持 SOTA 水平。
🔧 包含两个版本,Ovis2.5-9B 适合大规模应用,Ovis2.5-2B 则专注于资源受限场景。
📊 采用创新架构和训练策略,数据量增加50%,聚焦视觉推理等关键领域。

阿里国际推出了Ovis2.5多模态大模型,引领视觉识别与高级推理技术新突破

阿里国际 AI 团队于 2025 年 8 月 26 日正式发布新一代多模态大模型 Ovis2.5,在视觉感知与深度推理能力上取得显著突破。

核心亮点

  1. 原生分辨率视觉感知
    通过集成原生分辨率视觉编码器(NaViT),Ovis2.5 能够直接处理任意分辨率的图像,避免传统“切图-拼接”带来的信息损失,使模型可以完整捕捉宏观布局与微小细节,为复杂场景下的深度推理奠定基础

  2. 深度推理“思考模式”
    引入包含自我检查与修正环节的长链思考训练,模型在推理时可选择开启“思考模式”,主动生成中间步骤并修正推理过程,显著提升数学推理、复杂图表分析等任务的准确率

  3. 攻克复杂图表难题
    通过数据端(新增高质量图表、OCR 数据)、视觉端(原生分辨率编码器)和推理端(深度思考能力)三重增强,Ovis2.5 在复杂图表理解、OCR 等任务上表现优异,在 OCRBench v2 和 ChartQA Pro 等基准测试中超越 GPT-4o 并创下开源模型最佳纪录

性能表现

  • Ovis2.5-9B:在 OpenCompass 多模态基准测试中综合得分 78.3,在 40B 参数以下开源模型中领先

  • Ovis2.5-2B:以更小模型尺寸取得 73.9 分,延续“小身板、大能量”的设计理念

应用场景

Ovis2.5 的推理与理解能力适用于多种实际场景,包括:

  • 快递分拣:识别面单信息并以 JSON 格式输出,提升物流效率

  • 自动驾驶:处理多模态信息,精准感知环境并作出决策

  • 教育领域:看图解答高中函数题,分析图表和知识推理

技术架构与训练策略

  • 架构升级:采用原生分辨率视觉 Transformer(NaViT),结合旋转位置编码(RoPE),提升空间感知能力;语言模型升级为 Qwen3,增强多模态推理

  • 五阶段训练流程:包括视觉预训练、多模态预训练、指令微调、直接偏好优化(DPO)和强化学习(GRPO),实现 3-4 倍训练加速

Ovis2.5 的开源版本已在魔搭社区等平台发布,累计下载量超 280 万次,成为多模态领域的热门模型之一

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐