首页 > 快讯 > Ovis2.5:阿里国际数贸集团AI团队推出经济视觉推断模型重大进展

Ovis2.5:阿里国际数贸集团AI团队推出经济视觉推断模型重大进展

发布时间：2025-08-18 11:15:33 | 责任编辑：吴昊 | 浏览量：370 次

阿里国际数字贸易集团（AIDC）的AI团队(AIDC-AI)近日发布全新多模态大语言模型Ovis2.5，提供9B和2B两种参数规模版本。该模型定位为经济型视觉推理解决方案，在其规模内展现出卓越性能，为多模态AI应用树立了新标杆。
Ovis2.5的核心特性
1. **原生分辨率感知**:Ovis2.5采用NaViT视觉编码器，无需损耗平铺即可保留图像的精细细节和全局结构，确保高质量的视觉处理能力。
2. **深度推理能力**:模型支持可选的“思考模式”，可能部分复用了阿里Qwen3的技术特性。除了线性思维链（CoT）推理外，Ovis2.5还能进行自我检查和修订，并支持可配置的思考预算，提升问题解决的精准度。
3. **图表与文档OCR领先**:在9B和2B规模上，Ovis2.5在复杂图表分析、文档理解（包括表格和表单）以及光学字符识别(OCR)领域达到业内领先水平，为实际应用场景提供强大支持。
4. **广泛任务覆盖**:该模型在图像推理、视频理解和视觉定位基准测试中表现出色，展现了强大的通用多模态能力。
Ovis2.5的发布彰显了AIDC-AI在多模态AI技术领域的持续创新。通过在紧凑模型规模内实现高性能，Ovis2.5为开发者和企业提供了一种高效且易于部署的解决方案，尤其适用于需要视觉与文本推理结合的场景。模型已在GitHub和Hugging Face等平台开源，进一步推动全球AI社区的协作与创新。
此次发布是AIDC-AI在Ovis系列模型基础上取得的又一重要进展，为多模态大语言模型的发展注入了新的活力。

阿里国际数字贸易集团 AI 团队近期发布了 Ovis2.5（应为 Ovis2 系列模型），这是一个经济型视觉推理模型的重大突破。Ovis2 架构通过将视觉和文本嵌入进行结构化对齐，解决了模态间嵌入策略差异这一局限性，显著提升了模型的性能。

Ovis2 系列模型在数据构造和训练方法上进行了显著改进，强化了小规模模型的能力密度，并通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力，尤其在数学推理和视频理解任务中表现突出。此外，Ovis2 引入了视频和多图像处理能力，增强了多语言能力和复杂场景下的 OCR 能力，显著提升了模型的实用性。

目前，Ovis2 系列模型已开源 1B、2B、4B、8B、16B 和 34B 六个版本，各个参数版本均达到同尺寸 SOTA（State of the Art）水平，为不同应用场景提供了丰富的选择。其中，Ovis2-34B 在权威评测榜单 OpenCompass 上表现卓越，位列多模态通用能力榜单所有开源模型第二，并以不到一半的参数尺寸超过了诸多 70B 开源旗舰模型；在多模态数学推理榜单上，Ovis2-34B 更是位列所有开源模型第一。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Harvard, HIT, and Zhejiang University Unveil Decoupled 3D Modeling Tech OmniPart, Revolutionizing Creative Design Approaches

下一篇： Meta 发布 DINOv3：一种无需标签的智能图像解析AI工具

Ovis2.5:阿里国际数贸集团AI团队推出经济视觉推断模型重大进展

最新Ai信息

最新Ai工具

热门AI推荐