首页 > 快讯 > 12月多模态视觉大模型表现报告：Gemini居首，豆包与商汤在国产阵营中领先

12月多模态视觉大模型表现报告：Gemini居首，豆包与商汤在国产阵营中领先

发布时间：2025-12-31 11:01:04 | 责任编辑：吴昊 | 浏览量：89 次

在刚刚公布的 SuperCLUE-VLM12月多模态视觉语言基准测评中，全球 AI 大模型展现出了极强的竞争态势。本次测评从基础认知、视觉推理以及视觉应用三个核心维度展开，全方位考察了各大模型的“眼力”与“脑力”。
在此次角逐中，谷歌推出的Gemini-3-pro以83.64分的绝对优势摘得桂冠。详细数据显示，其在三项细分指标上均实现了全面领先，展现了国际顶尖模型的深厚底蕴。而在国产模型方面，整体表现同样亮眼。商汤科技的 SenseNova V6.5Pro 以75.35分紧随其后位居次席，字节跳动旗下的豆包视觉版则以73.15分成功闯入前三。值得一提的是，豆包在基础认知方面的表现甚至超越了部分国际强敌。
此外，百度 ERNIE-5.0-Preview 与阿里巴巴的 Qwen3-vl 也成功进入榜单前五。其中，Qwen3-vl 更是成为榜单中首个总分突破70分大关的开源模型，为开源社区贡献了极强的视觉解析能力。
相比之下，部分国际老牌劲旅的表现略显乏力。Anthropic 的 Claude-opus-4-5获得71.44分，而 OpenAI 的 GPT-5.2（high）则意外跌出第一梯队，仅以69.16分排名靠后。这一排名的变动，也标志着多模态 AI 领域的竞争正进入白热化的阶段。
划重点:
🏆 全球领跑:谷歌 Gemini-3-pro 以83.64分夺冠，在基础认知、视觉推理和应用三项指标上均位列第一。
🇨🇳 国产爆发:商汤 SenseNova 与字节跳动豆包分列二、三名，展现了中国大模型在视觉理解领域的强劲竞争力。
📊 行业洗牌:Qwen3-vl 成为首个破70分的开源模型，而 GPT-5.2（high）在本次视觉测评中表现不及预期，位居后列。

这是一篇关于多模态视觉大模型12月战报:Gemini 霸榜，豆包、商汤领跑国产阵营的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：马斯克的xAI再添新地标：第三栋大楼入手，直指20亿瓦算力目标

下一篇：广电总局行动！2026年将进一步监管“AI篡改”四大名著及邪典动画现象

12月多模态视觉大模型表现报告：Gemini居首，豆包与商汤在国产阵营中领先

最新Ai信息

最新Ai工具

热门AI推荐