首页 > 快讯 > 阿里发布惊艳的HumanOmniV2：崭新多模态AI领军者，精度达到69.33%

阿里发布惊艳的HumanOmniV2：崭新多模态AI领军者，精度达到69.33%

发布时间：2025-07-08 15:30:24 | 责任编辑：吴昊 | 浏览量：110 次

阿里巴巴集团近期正式推出其最新多模态大语言模型HumanOmniV2，在AI领域再掀波澜。这款模型以其强大的全局上下文理解能力和多模态推理能力，标志着阿里巴巴在人工智能技术的又一次重大突破。

HumanOmniV2的最大亮点在于其强制性上下文总结机制，能够基于全局上下文进行多模态推理，显著提升模型对复杂场景的理解能力。相比传统大语言模型，HumanOmniV2通过深度整合文本、图像等多种模态数据，解决了常见模型在复杂任务中的“捷径问题”（shortcut problems），从而实现更精准的意图理解与推理输出。
在多个权威基准测试中，HumanOmniV2展现了卓越性能。据公开信息显示，该模型在Daily-Omni数据集上的准确率达到58.47%，在WorldSense数据集上达到47.1%，而在阿里巴巴自研的IntentBench测试中更是取得了69.33%的优异成绩。这些数据表明，HumanOmniV2在处理日常对话、复杂场景感知以及用户意图理解方面具有显著优势。
HumanOmniV2的研发由阿里巴巴Tongyi Lab主导，聚焦于提升模型在多模态任务中的表现。传统模型在处理跨模态信息时，往往因缺乏全局上下文而导致输出偏差。HumanOmniV2通过引入全新的上下文总结机制，确保模型能够综合分析输入数据中的所有信息，从而生成更符合用户意图的结果。这一技术突破使其在消费级应用（如智能客服、内容创作）以及企业级场景(如智能决策系统)中具备广泛应用潜力。
此外，HumanOmniV2在多语言支持上也表现突出，支持包括中文和英文在内的多种语言指令输入，极大提升了模型的国际化适用性。这一特性使其在全球AI市场中更具竞争力。
随着DeepSeek等中国AI企业的崛起，阿里巴巴正通过HumanOmniV2进一步巩固其在全球AI领域的领先地位。社交媒体上的讨论显示，业界对HumanOmniV2的发布反响热烈，认为其多模态推理能力将推动AI在教育、医疗、金融等领域的深入应用。例如，HumanOmniV2可用于生成高质量的AI视频内容，或在智能医疗场景中辅助医生进行复杂病例分析。
与此同时，阿里巴巴近期在AI领域的频繁动作也引发关注。从Qwen系列到Wan2.1VACE，再到如今的HumanOmniV2，阿里巴巴正加速布局AI生态，力图通过开源与商业化并举的策略，抢占市场先机。然而，市场竞争同样激烈，华为、百度等企业的AI模型也在快速发展，HumanOmniV2的后续表现值得持续关注。
HumanOmniV2的发布不仅是阿里巴巴技术实力的体现，也反映了中国AI产业在全球竞争中的崛起态势。小编分析认为，随着多模态AI技术的不断成熟，HumanOmniV2有望成为推动行业标准革新的重要力量。未来，阿里巴巴或将进一步开源相关技术，吸引更多开发者加入其AI生态，共同探索多模态AI的无限可能。

阿里发布惊艳的HumanOmniV2：崭新多模态AI领军者，精度达到69.33%-项目/模型网址:
GitHub Model Scope Hugging Face

阿里发布惊艳的HumanOmniV2：崭新多模态AI领军者，精度达到69.33%

阿里巴巴通义实验室于2025年6月26日发布了名为 HumanOmniV2 的多模态AI系统。该系统在多模态AI领域取得了显著突破，特别是在理解人类复杂意图和情感方面表现优异。在专门设计的 IntentBench 测试中，HumanOmniV2的准确率达到了 69.33%，大幅超越了其他所有开源的多模态AI模型。

HumanOmniV2的核心创新

HumanOmniV2通过以下技术创新实现了突破：

全景背景理解与深度推理：该系统会先全面理解整个场景的背景信息，再进行深度推理，类似于心理咨询师综合观察表情、语调、肢体语言等来理解对方的真实想法。
改进的GRPO算法：采用组相对策略优化（GRPO）算法，并引入四种奖励机制：准确性奖励、格式奖励、背景奖励和逻辑奖励。
IntentBench测试基准：这是一个专门用于评估AI系统理解人类复杂意图能力的测试基准，涵盖了社交智能理解、情感识别和欺骗检测等多个领域。

实验表现

在多个测试中，HumanOmniV2均表现出色：

Daily-Omni测试：总体得分58.47%，在推理任务中得分从基础模型的61.71%大幅提升到74.28%。
WorldSense测试：得分47.1%，在开源模型中排名第一。
IntentBench测试：得分69.33%，在社交智能理解任务中得分66.76%，情感识别任务中得分67.08%，欺骗检测任务中得分71.25%。

应用前景与挑战

HumanOmniV2的发布标志着AI从“模式识别”迈向“心智理解”的关键一步。其在理解人类复杂意图和情感方面的卓越能力，使其在社交智能、情感识别和欺骗检测等领域具有广阔的应用前景。然而，研究团队也指出，该技术仍有改进空间，在某些复杂情况下可能出现错误判断。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。