首页 > 快讯 > 阿里国际推出了Ovis2.5多模态大模型，引领视觉识别与高级推理技术新突破

阿里国际推出了Ovis2.5多模态大模型，引领视觉识别与高级推理技术新突破

发布时间：2025-08-26 16:06:49 | 责任编辑：吴昊 | 浏览量：386 次

近日，阿里国际正式发布了其新一代多模态大模型 Ovis2.5，并对外开源。这款模型专注于原生分辨率视觉感知、深度推理以及高性价比的场景设计，旨在进一步提升人工智能的应用能力。Ovis2.5在主流多模态评测套件 OpenCompass 上的综合得分相比前一版本 Ovis2有了显著提升，继续在同类开源模型中保持 SOTA（最先进技术）水平。
此次发布的 Ovis2.5包含两个不同参数规模的版本。首先是 Ovis2.5-9B，这一版本在 OpenCompass 评测中获得了78.3的高分，超越了许多参数量更大的模型，并在40B 以下参数规模的开源模型中名列第一。其次，Ovis2.5-2B 的综合得分为73.9，延续了 Ovis 系列 “小身板、大能量” 的理念，特别适合端侧及资源受限的应用场景。
在 Ovis2.5的整体架构上，官方表示进行了系统性创新，主要体现在模型架构、训练策略与数据工程三个方面。模型架构方面，Ovis2.5延续了系列创新的结构化嵌入对齐设计，由三大核心组件构成:动态分辨率的视觉特征提取、视觉词表模块实现视觉与文本的结构对齐，以及以 Qwen3为基础的强大语言处理能力。
在训练策略上，Ovis2.5采用了更精细的五阶段训练方案，包括基础的视觉预训练、多模态预训练以及大规模的指令微调等多个步骤。同时，通过 DPO 和 GRPO 等算法加强偏好对齐和推理能力，有效提升了模型的性能。此外，模型的训练速度实现了3到4倍的端到端加速。
数据工程方面，Ovis2.5的数据量相比 Ovis2增加了50%，重点聚焦于视觉推理、图表、OCR（光学字符识别）和 Grounding 等关键领域。特别是合成了大量与 Qwen3深度适配的 “思考” 数据，极大地激发了模型的反思与推理潜能。
Ovis2.5的代码和模型均已在 GitHub 和 Hugging Face 等平台上线，用户可以通过这些平台获取相关资源，进一步探索其应用潜力。
代码:https://github.com/AIDC-AI/Ovis
模型: https://huggingface.co/AIDC-AI/
划重点:
🌟 Ovis2.5在 OpenCompass 评测中取得78.3的综合得分，继续保持 SOTA 水平。
🔧 包含两个版本，Ovis2.5-9B 适合大规模应用，Ovis2.5-2B 则专注于资源受限场景。
📊 采用创新架构和训练策略，数据量增加50%，聚焦视觉推理等关键领域。

阿里国际 AI 团队于 2025 年 8 月 26 日正式发布新一代多模态大模型 Ovis2.5，在视觉感知与深度推理能力上取得显著突破。

核心亮点

原生分辨率视觉感知：
通过集成原生分辨率视觉编码器（NaViT），Ovis2.5 能够直接处理任意分辨率的图像，避免传统“切图-拼接”带来的信息损失，使模型可以完整捕捉宏观布局与微小细节，为复杂场景下的深度推理奠定基础

。
深度推理“思考模式”：
引入包含自我检查与修正环节的长链思考训练，模型在推理时可选择开启“思考模式”，主动生成中间步骤并修正推理过程，显著提升数学推理、复杂图表分析等任务的准确率

。
攻克复杂图表难题：
通过数据端（新增高质量图表、OCR 数据）、视觉端（原生分辨率编码器）和推理端（深度思考能力）三重增强，Ovis2.5 在复杂图表理解、OCR 等任务上表现优异，在 OCRBench v2 和 ChartQA Pro 等基准测试中超越 GPT-4o 并创下开源模型最佳纪录

。

性能表现

Ovis2.5-9B：在 OpenCompass 多模态基准测试中综合得分 78.3，在 40B 参数以下开源模型中领先

。
Ovis2.5-2B：以更小模型尺寸取得 73.9 分，延续“小身板、大能量”的设计理念

。

应用场景

Ovis2.5 的推理与理解能力适用于多种实际场景，包括：

快递分拣：识别面单信息并以 JSON 格式输出，提升物流效率

。
自动驾驶：处理多模态信息，精准感知环境并作出决策

。
教育领域：看图解答高中函数题，分析图表和知识推理

。

技术架构与训练策略

架构升级：采用原生分辨率视觉 Transformer（NaViT），结合旋转位置编码（RoPE），提升空间感知能力；语言模型升级为 Qwen3，增强多模态推理

。
五阶段训练流程：包括视觉预训练、多模态预训练、指令微调、直接偏好优化（DPO）和强化学习（GRPO），实现 3-4 倍训练加速

。

Ovis2.5 的开源版本已在魔搭社区等平台发布，累计下载量超 280 万次，成为多模态领域的热门模型之一

。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：国内大模型的兴起，智能体开启AI新纪元！

下一篇：东莞见证2025年中国大学计算机AIGC创新挑战赛圆满结束，吸引了6390名学子同场竞技

阿里国际推出了Ovis2.5多模态大模型，引领视觉识别与高级推理技术新突破

核心亮点

性能表现

应用场景

技术架构与训练策略

最新Ai信息

最新Ai工具

热门AI推荐