首页 > 快讯 > SolidGeo 基准促进 AI 突破空间逻辑难关,立体几何成大型模型的关键障碍!

SolidGeo 基准促进 AI 突破空间逻辑难关,立体几何成大型模型的关键障碍!

发布时间:2025-06-24 16:41:22 | 责任编辑:张毅 | 浏览量:6 次

在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。
与传统的平面几何相比,立体几何的复杂性在于它需要理解三维结构及其空间关系。这不仅要求模型具备高水平的空间推理能力,还要能够整合视觉与文本信息。SolidGeo 的数据集包含3113个高质量的立体几何问题,这些问题来源于 K-12教育和高中数学竞赛,每道题目都配有图像和详细的解答说明,确保了数据的真实性与可靠性。
在对26个主流多模态模型进行的实验中,结果显示,当前最强的 OpenAI-o1模型在 SolidGeo 测试中的准确率仅为49.5%,与人类的77.5% 相比,仍有明显差距。其他模型的表现也不容乐观,许多开源模型的得分均低于30%。尤其在复杂的立体几何任务中,模型的表现更是大打折扣。例如,在涉及平面折叠与展开等任务时,OpenAI-o1的准确率仅为36.1%。相较之下,某些模型在特定难度的任务上却意外表现出色,这可能表明它们在处理简单问题时的泛化能力不足。
该研究还深入分析了模型在不同提示策略、题目难度和推理效率上的表现差异,发现大多数模型在任务难度增加时准确率显著下降。而推理效率则常常因为输出过长而降低,造成 “过度思考” 现象,这给 AI 的实际应用带来了挑战。
SolidGeo 的推出,不仅为 AI 模型在立体几何推理方面提供了新的评测标准,更是推动了多模态模型在空间智能领域的进一步探索。随着大模型能力的提升,如何在立体几何等复杂领域实现突破,将成为研究者们未来的重要任务。

SolidGeo 基准促进 AI 突破空间逻辑难关,立体几何成大型模型的关键障碍!

立体几何是数学中的一个重要分支,对于多模态大语言模型(MLLMs)的空间推理能力评估具有重要意义。然而,现有的多模态数学基准测试大多集中在平面几何上,而立体几何因其需要空间推理而更具挑战性,且在以往的基准测试中被严重忽视。

SolidGeo 基准的出现

SolidGeo 是第一个大规模基准测试,专门用于评估 MLLMs 在立体几何数学推理任务中的表现。它包含 3113 个来自真实世界 K–12 和竞赛级别的问题,每个问题都配有视觉上下文,并标注了难度级别和细粒度的立体几何类别。该基准涵盖了广泛的空间推理主题,如投影、展开、空间测量和空间向量等,为评估立体几何能力提供了一个严格的测试平台。

SolidGeo 的特点

  • 细粒度分类:SolidGeo 提供了首个细粒度的立体几何问题分类,将所有问题分为八个基于推理的子类别。这种分类捕捉了空间智能的核心方面,使得对模型能力的评估更加结构化。

  • 真实世界问题:SolidGeo 中的所有问题和图像都来自真实场景,问题表述自然且多样化。其平均问题长度为 77.2,远高于其他基准测试,如 MathVista(15.6)和 MathVision(42.3),提供了更丰富的上下文信息,也带来了更大的挑战。

  • 难度级别:每个问题都被标记了 1 到 3 的难度级别,由领域专家验证。这使得对模型的分析更加细致,有助于识别推理瓶颈。

实验结果与分析

  • 模型表现:在对 27 个 MLLMs 的评估中,OpenAI-o1 表现最佳,准确率为 49.5%,但仍远低于人类水平。开源模型 Llama4 表现不俗,准确率为 29.6%,超过了 GPT-4o,仅次于 Claude-3.7-Sonnet。

  • 不同主题的表现:模型在需要复杂空间推理的任务上表现不佳,如平面展开与配置(PUC)、多视图投影(MVP)和 3D 坐标与向量推理(3DCV)。即使是表现最好的 OpenAI-o1,在 PUC 上的准确率也只有 36.1%,在 MVP 上为 43.0%。

  • 难度级别与问题类型:随着任务难度的增加,大多数模型的准确率明显下降。例如,InternVL3-78B 在难度级别 1 上的准确率为 42.2%,但在难度级别 3 上降至 6.2%。在问题类型方面,大多数模型在多项选择题上的表现更好,但 Gemini-2.5-pro 和 OpenAI-o1 在单步问题上得分最高。

  • 模型推理效率:系统 2 模型通常比系统 1 模型生成更长的输出,这虽然可能提高准确性,但会降低推理效率。此外,随着问题难度的增加,模型生成的输出长度也会增加,表明更复杂的任务需要更长的推理链。然而,模型在生成错误答案时往往消耗更多的标记,而没有准确性提升,这表明过度推理并不能带来更好的结果。

SolidGeo 的意义与未来方向

SolidGeo 的出现为推动 MLLMs 在空间推理能力上的进步提供了重要的基础。它不仅揭示了当前 MLLMs 在立体几何任务上的局限性,还为未来的研究提供了方向,包括改进训练策略、提高数据质量和架构创新。未来的工作可能会探索为立体几何设计一个正式的表示框架,以进一步促进精确建模和程序化评估。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复