首页 > 快讯 > SolidGeo 基准促进 AI 突破空间逻辑难关，立体几何成大型模型的关键障碍！

SolidGeo 基准促进 AI 突破空间逻辑难关，立体几何成大型模型的关键障碍！

发布时间：2025-06-24 16:41:22 | 责任编辑：张毅 | 浏览量：289 次

在人工智能领域，多模态大模型（MLLM）一直在不断进化，然而最近一个新发布的基准测试 ——SolidGeo，给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo，专注于立体几何的推理能力，成为了首个系统评估多模态模型在三维空间理解方面的基准。
与传统的平面几何相比，立体几何的复杂性在于它需要理解三维结构及其空间关系。这不仅要求模型具备高水平的空间推理能力，还要能够整合视觉与文本信息。SolidGeo 的数据集包含3113个高质量的立体几何问题，这些问题来源于 K-12教育和高中数学竞赛，每道题目都配有图像和详细的解答说明，确保了数据的真实性与可靠性。
在对26个主流多模态模型进行的实验中，结果显示，当前最强的 OpenAI-o1模型在 SolidGeo 测试中的准确率仅为49.5%，与人类的77.5% 相比，仍有明显差距。其他模型的表现也不容乐观，许多开源模型的得分均低于30%。尤其在复杂的立体几何任务中，模型的表现更是大打折扣。例如，在涉及平面折叠与展开等任务时，OpenAI-o1的准确率仅为36.1%。相较之下，某些模型在特定难度的任务上却意外表现出色，这可能表明它们在处理简单问题时的泛化能力不足。
该研究还深入分析了模型在不同提示策略、题目难度和推理效率上的表现差异，发现大多数模型在任务难度增加时准确率显著下降。而推理效率则常常因为输出过长而降低，造成 “过度思考” 现象，这给 AI 的实际应用带来了挑战。
SolidGeo 的推出，不仅为 AI 模型在立体几何推理方面提供了新的评测标准，更是推动了多模态模型在空间智能领域的进一步探索。随着大模型能力的提升，如何在立体几何等复杂领域实现突破，将成为研究者们未来的重要任务。

立体几何是数学中的一个重要分支，对于多模态大语言模型（MLLMs）的空间推理能力评估具有重要意义。然而，现有的多模态数学基准测试大多集中在平面几何上，而立体几何因其需要空间推理而更具挑战性，且在以往的基准测试中被严重忽视。

SolidGeo 基准的出现

SolidGeo 是第一个大规模基准测试，专门用于评估 MLLMs 在立体几何数学推理任务中的表现。它包含 3113 个来自真实世界 K–12 和竞赛级别的问题，每个问题都配有视觉上下文，并标注了难度级别和细粒度的立体几何类别。该基准涵盖了广泛的空间推理主题，如投影、展开、空间测量和空间向量等，为评估立体几何能力提供了一个严格的测试平台。

SolidGeo 的特点

细粒度分类：SolidGeo 提供了首个细粒度的立体几何问题分类，将所有问题分为八个基于推理的子类别。这种分类捕捉了空间智能的核心方面，使得对模型能力的评估更加结构化。
真实世界问题：SolidGeo 中的所有问题和图像都来自真实场景，问题表述自然且多样化。其平均问题长度为 77.2，远高于其他基准测试，如 MathVista（15.6）和 MathVision（42.3），提供了更丰富的上下文信息，也带来了更大的挑战。
难度级别：每个问题都被标记了 1 到 3 的难度级别，由领域专家验证。这使得对模型的分析更加细致，有助于识别推理瓶颈。

实验结果与分析

模型表现：在对 27 个 MLLMs 的评估中，OpenAI-o1 表现最佳，准确率为 49.5%，但仍远低于人类水平。开源模型 Llama4 表现不俗，准确率为 29.6%，超过了 GPT-4o，仅次于 Claude-3.7-Sonnet。
不同主题的表现：模型在需要复杂空间推理的任务上表现不佳，如平面展开与配置（PUC）、多视图投影（MVP）和 3D 坐标与向量推理（3DCV）。即使是表现最好的 OpenAI-o1，在 PUC 上的准确率也只有 36.1%，在 MVP 上为 43.0%。
难度级别与问题类型：随着任务难度的增加，大多数模型的准确率明显下降。例如，InternVL3-78B 在难度级别 1 上的准确率为 42.2%，但在难度级别 3 上降至 6.2%。在问题类型方面，大多数模型在多项选择题上的表现更好，但 Gemini-2.5-pro 和 OpenAI-o1 在单步问题上得分最高。
模型推理效率：系统 2 模型通常比系统 1 模型生成更长的输出，这虽然可能提高准确性，但会降低推理效率。此外，随着问题难度的增加，模型生成的输出长度也会增加，表明更复杂的任务需要更长的推理链。然而，模型在生成错误答案时往往消耗更多的标记，而没有准确性提升，这表明过度推理并不能带来更好的结果。

SolidGeo 的意义与未来方向

SolidGeo 的出现为推动 MLLMs 在空间推理能力上的进步提供了重要的基础。它不仅揭示了当前 MLLMs 在立体几何任务上的局限性，还为未来的研究提供了方向，包括改进训练策略、提高数据质量和架构创新。未来的工作可能会探索为立体几何设计一个正式的表示框架，以进一步促进精确建模和程序化评估。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。