首页 > 快讯 > Meta FAIR最新五大AI感知进展：涵盖3D对象定位至协同推理，开源项目推动行业革新

Meta FAIR最新五大AI感知进展：涵盖3D对象定位至协同推理，开源项目推动行业革新

发布时间：2025-05-09 11:17:51 | 责任编辑：张毅 | 浏览量：383 次

Meta人工智能研究团队（FAIR）近日公开发布五项前沿研究成果，标志着AI感知领域的重大突破。这些开源项目从视觉编码器到3D空间理解，再到协作式推理框架，共同构建了通向高级机器智能(AMI)的关键路径，为未来AI如何理解和感知世界带来全新可能。
Meta感知编码器（Perception Encoder）作为大规模视觉编码器，在图像和视频处理领域显示出卓越能力，成为AI系统的"眼睛"。该编码器能够连接视觉与语言，同时在各种复杂甚至对抗性环境下保持高稳定性。它不仅能识别广泛的视觉概念，还能捕捉细微差别，如辨别海底隐藏的黄貂鱼，识别图像背景中的小金翅雀，或在夜视野生动物摄像机中捕捉飞奔的刺豚。
在零样本分类和检索任务上，感知编码器的表现超越了所有现有开源和专有模型。更令人瞩目的是，这些强大的感知能力成功迁移到下游语言任务中。当与大型语言模型对齐后，该编码器在图像和视频问答、字幕生成、文档理解等传统上对语言模型具有挑战性的任务上表现出色，如判断物体的前后位置或相机绕物体的运动方向。
Meta同时发布了感知语言模型（PLM），这是一个开放、可复现的视觉-语言模型，专为解决复杂视觉识别任务而设计。研究团队使用大规模合成数据和开放视觉-语言理解数据集进行训练，未依赖外部模型进行蒸馏。
针对现有视频理解数据的不足，团队收集了250万个人工标注的细粒度视频问答和时空标题样本，形成目前同类数据集中规模最大的数据资源。PLM基于这一庞大数据集训练，结合人工标注和合成数据，创建了一个健壮、准确且完全可复现的模型，提供10亿、30亿和80亿参数的不同版本，特别适合透明的学术研究。
此外，Meta还推出了新基准PLM-VideoBench，聚焦现有基准所忽视的任务:细粒度活动理解和时空定位推理。这一开放大规模数据集、具挑战性的基准和强大模型的组合，将助力开源社区构建更强大的计算机视觉系统。
想象一下，当你对机器人说"给我拿桌上的红杯子"，机器人能精准完成任务。Meta Locate3D正是为实现这一目标而生的端到端模型，能够准确定位来自开放词汇查询的物体。该模型直接处理来自RGB-D传感器的3D点云数据，当接收到如"电视柜旁的花瓶"等文本提示时，会考虑空间关系和上下文，识别特定物体实例并精确定位。
Meta Locate3D由三个关键组件构成:
研究团队还发布了一个基于参照表达式的物体定位新数据集，包含跨ARKitScenes、ScanNet和ScanNet++三个广泛使用数据集的13万个语言标注，覆盖1，346个场景，有效将现有数据标注量翻倍。Meta Locate3D通过使机器人准确理解周围环境并将理解基于自然语言，支持更复杂和高效的机器人系统开发，包括Meta PARTNR项目，标志着智能自主机器追求道路上的重要一步。
应广泛需求，Meta发布了80亿参数的动态字节潜在变换器（Dynamic Byte Latent Transformer）模型权重。这项研究是字节级语言模型架构的重大进步，首次实现了与传统基于分词的语言模型相匹配的大规模性能，同时提高了推理效率和显著改善了鲁棒性。
动态字节潜在变换器架构在各种任务中表现超越基于分词器的模型，平均鲁棒性优势达7个百分点（在扰动HellaSwag上），在CUTE令牌理解基准的任务上优势高达55个百分点。这凸显了该技术重新定义语言模型效率和可靠性标准的潜力，为传统分词方法提供了有力替代方案。
人类合作往往能取得更强大的成果。Meta的协作推理器（Collaborative Reasoner）框架旨在评估和提高大型语言模型的协作推理技能，这是构建协作社交智能体的重要一步。想象一个能帮助理解困难作业或准备工作面试的智能体，这类协作除了解决问题外，还需要有效沟通、提供反馈、同理心和心智理论等社交技能。
协作推理器包含一套目标导向任务，需要两个智能体通过多轮对话完成多步推理。这些任务和指标要求智能体在解决方案上产生分歧，说服伙伴接受正确解决方案，并最终作为团队就最佳解决方案达成一致。
评估显示，当前模型无法一致地利用协作来实现更好的任务表现。为改善语言模型的协作推理能力，Meta提出了使用合成交互数据的自我提升方法，即语言模型智能体与自身协作。为了大规模生成此类数据，团队开发了一个名为Matrix的多功能高性能模型服务引擎。在数学（MATH）、科学(MMLU-Pro、GPQA)和社会推理(ExploreToM、HiToM)任务上，该方法的性能比同等单一智能体的思维链表现提高了高达29.4%。
通过广泛开放这五项研究成果，Meta FAIR团队旨在为研究社区提供便捷访问，促进AI开放生态系统发展，加速进步和发现。这些模型、基准和数据集专注于感知能力，帮助机器以人类般的智能和速度获取、处理和解释感官信息，为实现高级机器智能铺平道路。
随着这些技术的不断成熟和应用，我们可以期待AI系统将具备更强大的视觉理解能力、更精确的3D空间感知以及更自然的协作互动能力，为人机协作和智能应用开辟崭新未来。
官方介绍：
https://ai.meta.com/blog/meta-fair-updates-perception-localization-reasoning/

Meta FAIR团队最近公布了五大AI感知突破，这些成果从3D对象定位到协作推理等多个领域都有所涉及，并且全部开源，助力产业升级，以下是详细介绍：

3D对象定位

Meta Locate 3D：这是一个端到端的模型，能够根据开放词汇的自然语言查询，在3D环境中准确定位物体。该系统由三部分组成：将2D特征转换为3D特征化点云的预处理步骤；3D-JEPA编码器（预训练模型，创建上下文化的3D世界表示）；以及Locate 3D解码器，它结合3D表示和语言查询，输出指定物体的边界框和掩码。此外，Meta还发布了一个新的大规模数据集，包含130,000个语言注释，覆盖1,346个场景，有效将该领域的现有注释数据翻倍。

视觉理解

Perception Encoder：这是一个先进的视觉模型，能够解释复杂的视觉数据。它在识别伪装物体、追踪运动物体以及进行细粒度识别方面表现出色。与大型语言模型集成后，可增强视觉问答、图像描述和文档分析等任务的能力。

视觉与语言融合

Perception Language Model（PLM）：该模型将视觉和语言数据结合起来，处理复杂的识别任务。它在理解复杂视觉场景和生成准确描述方面表现出色。Meta还推出了PLM-VideoBench，这是一个用于评估模型在细粒度活动识别和时空推理方面表现的基准。

语言处理

Dynamic Byte Latent Transformer：传统的语言模型依赖于分词，这可能会限制它们理解拼写错误或不常见术语的能力。Meta的Dynamic Byte Latent Transformer通过在字节级别处理文本，增强了模型的鲁棒性和效率。这种方法允许AI处理更广泛的语言输入，使其对文本中的错误和变化更具弹性。

协作推理

Collaborative Reasoner：这是一个旨在开发能够与人类和其他机器有效协作的AI代理的框架。该系统强调社交智能，使AI能够进行有意义的对话，理解不同的观点，并朝着共同的目标努力。通过模拟互动和自我改进技术，Collaborative Reasoner增强了AI的推理、说服和协作能力。

这些突破不仅展示了Meta在AI领域的技术实力，也体现了其推动AI发展的决心。通过开源这些项目，Meta为全球的研究人员和开发者提供了宝贵的资源，有望加速AI技术的创新和应用，推动产业升级。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。