首页 > 快讯 > 开源的SpatialLM 3D视觉模型,即刻解析场景信息

开源的SpatialLM 3D视觉模型,即刻解析场景信息

发布时间:2025-04-16 09:43:13 | 责任编辑:字母汇 | 浏览量:25 次

在人工智能领域,3D视觉与空间理解技术正成为推动具身智能、自主导航及虚拟现实等应用的关键。2025年3月,杭州群核科技在GTC2025全球大会上宣布正式开源其自主研发的3D视觉大语言模型 SpatialLM,引发业界广泛关注。
这一模型以其强大的空间认知能力和低成本的数据处理方式,为机器人训练、建筑设计及AR/VR等领域带来了革命性突破。AIbase基于最新信息,整理并深入解析SpatialLM的技术亮点与行业影响。
SpatialLM:从手机视频到物理正确的3D场景
SpatialLM是一款专为三维空间理解设计的大语言模型,能够基于普通手机或相机拍摄的视频,快速生成物理正确的3D场景布局。相较于传统方法依赖昂贵的激光雷达或专业设备,SpatialLM通过处理多源点云数据(如单目视频序列、RGBD图像或LiDAR传感器),显著降低了数据采集门槛。模型能够精准识别场景中的建筑元素(如墙壁、门窗)以及物体的语义边界框(如“沙发 – 长1.8米 – 距墙0.5米”),并以结构化脚本语言输出,为机器赋予类似人类的空间认知能力。
其核心技术基于 MASt3R-SLAM,通过将视频拆解为帧,提取空间细节并生成高密度3D点云。随后,点云编码器将数据转化为紧凑特征向量,大语言模型(LLM)进一步生成场景代码,确保输出的3D布局符合物理规则(如“家具不能悬空”“通道宽度≥0.8米”)。这种多模态架构有效弥合了非结构化三维几何数据与结构化表示之间的差距,为复杂场景分析提供了高层次语义理解。
开源赋能:降低具身智能开发门槛
群核科技此次开源的SpatialLM提供了两种模型版本:基于Llama的 SpatialLM-Llama-1B 和基于Qwen的 SpatialLM-Qwen-0.5B,参数规模分别为1亿和0.5亿,相比当前动辄百亿参数的LLM显得轻量高效。模型已在Hugging Face、GitHub及魔搭社区等平台面向全球开发者开放,配备详细教程与测试数据集(如SpatialLM-Testset,包含107个由单目RGB视频重建的点云数据)。开发者可通过简单的Python脚本运行推理,并利用可视化工具(如Rerun)查看3D布局结果。
开源举措的意义在于为具身智能领域提供了基础训练框架。群核科技首席科学家周子寒表示:“SpatialLM旨在帮助不具备模型开发能力的机器人企业,通过微调快速提升空间理解能力。”结合群核此前开源的空间智能平台 SpatialVerse,SpatialLM可将现实场景转化为虚拟训练环境,生成亿万级仿真场景,大幅降低机器人训练成本与风险。
广泛应用:从机器人到建筑设计
SpatialLM的应用场景极为广泛。在 具身智能领域,它支持机器人在复杂环境中实现导航、避障及任务执行,为智能家居、服务机器人等提供核心技术支撑。在 建筑设计与规划中,模型能分析建筑物点云数据,自动识别墙体、门窗等结构,助力高效设计。此外,在 教育与培训中,SpatialLM可用于开发3D建模教学软件,帮助学生直观理解空间关系。在 AR/VR及游戏开发中,其虚拟场景生成能力为沉浸式体验提供了低成本解决方案。
SpatialLM的开源不仅展示了群核科技在空间智能领域的技术积累,也推动了3D视觉技术的普及与创新。相比Meta的SceneScript等模型,SpatialLM以普通视频为输入的通用性更强,且未来计划迭代自然语言交互与场景交互功能,进一步增强模型的实用性。

开源的SpatialLM 3D视觉模型,即刻解析场景信息-项目/模型网址:
GitHub Model Scope Hugging Face
开源的SpatialLM 3D视觉模型,即刻解析场景信息

SpatialLM 是由群核科技开源的一款 3D 视觉大语言模型,主要用于空间理解与场景内容的实时识别。以下是关于 SpatialLM 的详细介绍:

技术原理

SpatialLM 的核心技术基于 MASt3R-SLAM,通过将视频拆解为帧,提取空间细节并生成高密度 3D 点云。随后,点云编码器将点云数据转化为紧凑的特征向量,大语言模型(LLM)进一步生成描述场景的场景代码,最终转换为结构化的 3D 场景布局。此外,SpatialLM 内置了物理常识,确保生成的 3D 场景符合物理规则。

功能特点

  • 低成本数据采集:SpatialLM 不需要借助复杂的传感器或智能穿戴设备,普通手机或相机拍摄的视频即可作为数据输入。
  • 实时场景识别:能够通过视频生成物理正确的 3D 场景布局,标注出房间结构、家具摆放、通道宽度等信息。
  • 多模态架构:能够处理来自多种来源的点云数据,如单目视频序列、RGBD 图像和 LiDAR 传感器。

开源情况

SpatialLM 提供了两种模型版本:基于 Llama 的 SpatialLM-Llama-1B 和基于 Qwen 的 SpatialLM-Qwen-0.5B,参数规模分别为 1 亿和 0.5 亿。模型已在 Hugging Face、GitHub 及魔搭社区等平台面向全球开发者开放。

应用场景

  • 具身智能训练:SpatialLM 可以帮助机器人在虚拟环境中进行障碍规避、物体抓取等任务的训练。
  • 建筑设计与规划:能够分析建筑物的 3D 点云数据,识别出墙体、门窗等结构信息。
  • AR/VR 领域:可以将现实世界的场景快速转化为虚拟环境中的丰富场景。
  • 教育与培训:可用于开发 3D 建模教学软件,帮助学生直观理解空间关系。

SpatialLM 的开源为具身智能、建筑设计、AR/VR 等领域带来了革命性的突破,降低了开发门槛,推动了 3D 视觉技术的普及与创新。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复