首页 > 快讯 > 阿里重磅推出Ovis-U1：融合多模态AI技术，开源平台助力全球开发者

阿里重磅推出Ovis-U1：融合多模态AI技术，开源平台助力全球开发者

发布时间：2025-06-30 11:48:18 | 责任编辑：张毅 | 浏览量：458 次

2025年6月29日，阿里巴巴国际AI团队正式发布了全新多模态大模型 **Ovis-U1**，标志着其在多模态人工智能领域的又一重大突破。作为Ovis系列的最新力作，Ovis-U1将多模态理解、图像生成和图像编辑功能融为一体，展现了强大的跨模态处理能力，为开发者、研究者和行业应用提供了全新的可能性。以下是小编对Ovis-U1的详细报道。
Ovis-U1:三合一的多模态统一框架
Ovis-U1是阿里巴巴国际AI团队基于Ovis系列架构打造的3亿参数模型，首次实现了多模态理解、文生图像和图像编辑的统一。据小编了解，该模型采用创新的架构设计，通过视觉分词器（Visual Tokenizer）、视觉嵌入表和大型语言模型(LLM)三大核心组件，高效对齐视觉与文本嵌入。这种结构化对齐方式克服了传统多模态模型在模态间转换中的局限性，显著提升了模型在复杂场景下的表现。
Ovis-U1能够处理文本、图像等多种输入形式，并在数学推理、物体识别、文本提取、视频理解等任务中展现出卓越性能。例如，它不仅可以精准识别图像中的物体或手写文本，还能根据用户指令生成高质量图像或对现有图像进行精细编辑。这一“三合一”能力使其在教育、电商、医疗、自动驾驶等领域的应用潜力巨大。
技术亮点:高效训练与开源共享
Ovis-U1的研发依托了先进的训练策略和多样化的数据集。据官方信息，模型基于Python3.10、Torch2.4.0和Transformers4.51.3等技术栈构建，训练过程中采用了DeepSpeed0.15.4优化，确保高效性和稳定性。此外，Ovis-U1延续了Ovis系列的开源传统，采用Apache2.0许可协议，代码、模型权重和训练数据均已在Hugging Face和GitHub上公开，开发者可通过简单的环境配置快速复现和部署。
小编注意到，Ovis-U1在训练中引入了合规性检查算法，确保模型输出符合伦理和法律要求。这种透明的开发方式不仅体现了阿里巴巴对开源社区的贡献，也为全球开发者提供了探索多模态AI的便捷工具。
Ovis-U1的多模态能力使其在实际应用中表现出色。例如，在电商领域，Ovis-U1可通过分析商品图片生成多语言描述，或根据用户需求编辑商品展示图像，提升消费者体验。在教育场景中，它能识别手写数学公式并提供详细解答，助力学生学习。此外，Ovis-U1还支持生成菜谱、分析视频内容等功能，为智能家居和内容创作提供了创新解决方案。
小编认为，Ovis-U1的发布不仅巩固了阿里巴巴在多模态AI领域的领先地位，还通过开源模式推动了全球AI技术的普及和进步。未来，Ovis-U1有望在更多行业场景中落地，成为连接视觉、语言和决策的智能桥梁。
自Ovis-U1发布以来，社交媒体上已有不少讨论。许多开发者对模型的多功能性和开源特性表示赞赏，认为其为中小型企业和个人开发者提供了低门槛的AI解决方案。小编预计，随着Ovis-U1的广泛应用，更多创新用例将在社区中涌现。
项目:（https://huggingface.co/AIDC-AI/Ovis-U1-3B）

很抱歉，我没有搜到有关“阿里Ovis-U1”于2025年6月29日发布的消息，但搜到了2024年9月19日阿里国际AI团队发布的多模态大模型Ovis的相关内容，以下是介绍：

技术特点

创新架构设计：Ovis引入可学习的视觉嵌入词表，将连续的视觉特征转换为概率化的视觉token，再经视觉嵌入词表加权生成结构化的视觉嵌入，克服了大部分多模态语言模型（MLLM）中MLP连接器架构的局限性，大幅提升多模态任务表现。
高分图像处理：采用动态子图方案，支持处理极端长宽比的图像，兼容高分辨率图像，展现出色的图像理解能力。
全面数据优化：全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向，显著提升多模态问答、指令跟随等任务表现。
卓越模型性能：在多模态权威综合评测Opencompass上，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一，超过了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在数学问答等方向表现媲美70B参数模型；在幻觉等任务中，Ovis-1.6的幻觉现象和错误率显著低于同级别的模型，展现了更高的生成文本质量和准确性。

开源情况

Ovis系列模型License采用Apache 2.0。Ovis 1.0、1.5的数据、模型、训练和推理代码都已全部开源，可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

应用场景

Ovis可应用在数学推理问答、物体识别、文本提取和复杂任务决策等方面。例如识别花的品种，多种语言的文本提取等。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。