化繁为简:Meta AI 新推出的 Pixio 图像模型,通过像素重建技术引领了3D 重构的新记录
发布时间:2025-12-29 11:02:38 | 责任编辑:张毅 | 浏览量:4 次
据 小编 报道,Meta AI 的研究团队近日发布了一项名为 Pixio 的图像模型研究,证明了即使采用更简单的训练路径,也能在深度估计和3D 重建等复杂视觉任务中展现出卓越的性能。长期以来,学术界普遍认为掩码自编码器(MAE)技术在场景理解上逊色于 DINOv2或 DINOv3等复杂算法,但 Pixio 的出现打破了这一固有认知。
Pixio 的核心逻辑源于对2021年 MAE 框架的深度改良。研究人员发现,原始设计中较弱的解码器限制了编码器的表现,因此他们显著增强了解码器的功能,并扩大了图像遮罩区域。通过将细小的遮罩方块改为大面积连续区域,Pixio 被迫放弃简单的像素复制,转而必须真正“理解”图像中的物体共现、3D 透视以及反射等空间关系。此外,通过引入多个用于聚合全局属性的类别标记,该模型能更精准地捕捉场景类型、相机角度及光照信息。
在训练策略上,Pixio 展现出极高的纯粹性。不同于 DINOv3针对特定基准测试(如 ImageNet)进行重复优化,Pixio 从网络收集了20亿张图像,并采用动态频率调整:减少简单产品照的权重,增加复杂场景的训练频次。这种不针对测试集“刷分”的做法,反而赋予了模型更强的迁移能力。
数据对比显示,仅拥有6.31亿参数的 Pixio 在多项指标上超越了8.41亿参数的 DINOv3。在单目深度估计中,其准确率提升了16%;在3D 重建任务中,仅凭单张图像训练的 Pixio 甚至优于使用八视角训练的 DINOv3。同时,在机器人学习领域,Pixio 也以78.4% 的成功率领先于 DINOv2。尽管研究团队承认人工掩蔽存在局限性,并计划向视频预测方向探索,但 Pixio 目前取得的突破已足以证明:回归像素重建的本质,往往能通向更深层的视觉理解。
这是一篇关于以简胜繁:Meta AI 推出 Pixio 图像模型,凭借像素重建刷新3D 重建纪录的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
