首页 > 快讯 > 最新多模态大模型评测结果公布！Gemini-3-Pro遥遥领先，豆包与商汤在国产阵营中脱颖而出，Qwen3-VL首登开源高分榜首

最新多模态大模型评测结果公布！Gemini-3-Pro遥遥领先，豆包与商汤在国产阵营中脱颖而出，Qwen3-VL首登开源高分榜首

发布时间：2025-12-31 12:10:26 | 责任编辑：张毅 | 浏览量：147 次

全球多模态大模型竞争格局再更新。近日，权威评测平台SuperCLUE-VLM发布2025年12月多模态视觉语言模型综合榜单，谷歌Gemini-3-Pro以83.64分断层领先，展现其在视觉理解与推理领域的压倒性优势。字节跳动豆包大模型以73.15分强势跻身前三，商汤科技SenseNova V6.5Pro以75.35分位列第二，国产大模型整体表现亮眼，彰显中国AI在多模态赛道的快速追赶能力。
评测维度:三大能力全面衡量模型“眼力”
SuperCLUE-VLM从三大核心维度评估模型真实视觉理解能力:
- 基础认知:识别图像中的物体、文字、场景等基本元素;
- 视觉推理:理解图像逻辑、因果关系与隐含信息;
- 视觉应用:完成图文生成、跨模态问答、工具调用等任务。
Gemini-3-Pro全面碾压，国产模型奋起直追
谷歌Gemini-3-Pro在三项指标中均遥遥领先:
- 基础认知:89.01分
- 视觉推理:82.82分
- 视觉应用:79.09分
其综合表现远超其他竞品，巩固了谷歌在多模态领域的技术霸主地位。
国产阵营表现抢眼:
- 商汤SenseNova V6.5Pro以75.35分稳居第二，推理与应用能力均衡;
- 字节豆包大模型以73.15分位列第三，基础认知得分高达82.70，甚至超越部分国际模型，仅在视觉推理环节略有不足;
- 百度ERNIE-5.0-Preview与阿里Qwen3-VL紧随其后，均进入前五。
尤为值得关注的是，Qwen3-VL成为榜单中首个总分突破70分的开源多模态模型，为全球开发者提供高性能、可商用的开放基座。
国际巨头表现分化:Claude稳健，GPT-5.2意外落后
国际阵营中，Anthropic的Claude-opus-4-5以71.44分位居中上游，延续其在语言理解上的优势;而OpenAI的GPT-5.2（high配置）仅得69.16分，排名相对靠后，引发业界对其多模态能力优化方向的讨论。
小编观察:多模态竞赛进入“实用化”新阶段
SuperCLUE-VLM榜单不仅是一份技术排名，更折射出行业趋势:
- 开源模型崛起:Qwen3-VL证明，开源路线同样可实现高性能，推动技术民主化;
- 国产聚焦场景落地:豆包、商汤等模型在基础认知上表现优异，契合中文互联网图文理解、短视频分析等高频需求;
- 视觉推理仍是瓶颈:多数模型在复杂逻辑、因果推断等高阶任务上仍有差距，这也是Gemini持续领先的关键。
随着多模态能力成为AI Agent、智能座舱、AR/VR等下一代应用的核心支撑，这场“看图说话”的竞赛，正决定谁将真正“看见”并理解世界。而中国大模型，已在通往全球第一梯队的路上加速奔跑。

这是一篇关于多模态大模型最新评测出炉！Gemini-3-Pro断层第一，豆包、商汤领跑国产阵营，Qwen3-VL成首个开源高分模型的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：特斯拉CEO马斯克宣布扩展xAI计划：购入新建筑”MACROHARDRR”，追求2GW计算能力顶点

下一篇：特斯拉Robotaxi进军中国市场，上海急寻Robotaxi专业人才

最新多模态大模型评测结果公布！Gemini-3-Pro遥遥领先，豆包与商汤在国产阵营中脱颖而出，Qwen3-VL首登开源高分榜首

最新Ai信息

最新Ai工具

热门AI推荐