首页 > 快讯 > 蚂蚁集团与inclusionAI携手推出Ming-Omni:开创首个公开多模态GPT-4o版

蚂蚁集团与inclusionAI携手推出Ming-Omni:开创首个公开多模态GPT-4o版

发布时间:2025-06-16 11:22:24 | 责任编辑:张毅 | 浏览量:4 次

近日,Inclusion AI 与 蚂蚁集团联合推出了一款名为 “Ming-Omni” 的先进多模态模型,标志着智能技术的新突破。Ming-Omni 能够处理图像、文本、音频及视频,为多种应用提供强大支持,其功能不仅涵盖语音和图像生成,还具备多模态输入的融合处理能力。
** 全面的多模态处理能力 **
Ming-Omni 的设计中采用了专用编码器来提取不同模态的标记(tokens),这些标记经过 “Ling” 模块(即混合专家架构,MoE)进行处理,后者配备了新提议的模态特定路由器。这样一来,Ming-Omni 便能够高效地处理和融合多模态输入,支持多种任务而无需额外的模型、特定任务的微调或结构重组。
** 语音与图像生成的革新 **
与传统多模态模型相比,Ming-Omni 的一个显著亮点在于其支持音频和图像生成。通过集成先进的音频解码器,Ming-Omni 能够生成自然流畅的语音。同时,其使用的高质量图像生成模型 “Ming-Lite-Uni” 则确保了图像生成的精细度。此外,该模型还能够进行上下文感知的对话、文本转语音转换和多样的图像编辑,充分展示了其在多个领域的应用潜力。
** 流畅的语音与文本转换 **
Ming-Omni 在语言处理方面的能力同样引人注目。其具备对方言的理解和语音克隆功能,可以将输入的文本转换为多种方言的语音输出,展现了其强大的语言适应性。例如,用户可以输入不同的方言句子,模型将能够理解并以相应方言进行回应,提升了人机交互的自然性和灵活性。
** 开放源代码,促进研究与开发 **
值得一提的是,Ming-Omni 是目前已知的首个在模态支持上与 GPT-4o 匹敌的开源模型。Inclusion AI 和 Ant Group 承诺将所有代码和模型权重公开,旨在激励社区的进一步研究与开发,推动多模态智能技术的不断进步。
Ming-Omni 的发布不仅为多模态智能领域注入了新的活力,也为各类应用提供了更多可能性。随着技术的不断演进,期待 Ming-Omni 能够在未来的智能交互中发挥更大的作用。
项目:https://lucaria-academy.github.io/Ming-Omni/

蚂蚁集团与inclusionAI携手推出Ming-Omni:开创首个公开多模态GPT-4o版

蚂蚁集团和Inclusion AI联合推出了名为Ming-Omni的开源多模态大模型,这是首个在模态支持能力上与GPT-4o相当的开源模型。以下是关于Ming-Omni的详细介绍:

技术特点

  • 多模态处理能力:Ming-Omni能够处理图像、文本、音频和视频等多种模态的输入和输出。它使用专用编码器从不同模态中提取tokens,这些tokens随后由基于混合专家(MoE)架构的“Ling”模块处理,该模块配备了新提出的模态专用路由器。这种设计使得单一模型能够在统一框架内高效处理和融合多模态输入,支持多样化任务,无需单独模型、任务特定的微调或结构重构。

  • 生成能力:Ming-Omni支持音频和图像生成。它通过集成先进的音频解码器实现自然语音生成,并使用高质量图像生成模型“Ming-Lite-Uni”确保图像生成的精细度。此外,该模型还能够进行上下文感知聊天、文本到语音转换以及多样化的图像编辑。

  • 语言处理能力:Ming-Omni具备对方言的理解和语音克隆功能,可以将输入的文本转换为多种方言的语音输出,展现了其强大的语言适应性。

性能表现

  • 多模态理解:在多模态理解任务中,Ming-Omni表现出色。例如,在MMBench、MMMU等基准测试中,其平均得分71.4,与Qwen2.5-VL-7B相当。

  • 图像生成:在图像生成方面,Ming-Omni的GenEval得分0.64,优于SDXL,FID(Fréchet Inception Distance)低至4.85,创下新高。

  • 语音处理:在端到端语音理解和指令跟随上,Ming-Omni超越了Qwen2.5-Omni和Kimi-Audio,平均得分达4.34(SpeechQA基准)。

开源与社区贡献

Ming-Omni是目前已知的首个在模态支持上与GPT-4o相当的开源模型。Inclusion AI和蚂蚁集团承诺将所有代码和模型权重公开,旨在激励社区的进一步研究与开发,推动多模态智能技术的不断进步。

应用前景

Ming-Omni的发布为多模态智能领域注入了新的活力,也为各类应用提供了更多可能性。其强大的多模态处理和生成能力使其在智能交互、内容创作、教育、娱乐等多个领域具有广泛的应用潜力。

模型参数

Ming-Omni基于Ling-lite构建,采用MoE架构,总参数为220亿,激活参数为30亿。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复