首页 > 快讯 > 化繁为简：Meta AI 新推出的 Pixio 图像模型，通过像素重建技术引领了3D 重构的新记录

化繁为简：Meta AI 新推出的 Pixio 图像模型，通过像素重建技术引领了3D 重构的新记录

发布时间：2025-12-29 11:02:38 | 责任编辑：张毅 | 浏览量：138 次

据小编报道，Meta AI 的研究团队近日发布了一项名为 Pixio 的图像模型研究，证明了即使采用更简单的训练路径，也能在深度估计和3D 重建等复杂视觉任务中展现出卓越的性能。长期以来，学术界普遍认为掩码自编码器（MAE）技术在场景理解上逊色于 DINOv2或 DINOv3等复杂算法，但 Pixio 的出现打破了这一固有认知。
Pixio 的核心逻辑源于对2021年 MAE 框架的深度改良。研究人员发现，原始设计中较弱的解码器限制了编码器的表现，因此他们显著增强了解码器的功能，并扩大了图像遮罩区域。通过将细小的遮罩方块改为大面积连续区域，Pixio 被迫放弃简单的像素复制，转而必须真正“理解”图像中的物体共现、3D 透视以及反射等空间关系。此外，通过引入多个用于聚合全局属性的类别标记，该模型能更精准地捕捉场景类型、相机角度及光照信息。
在训练策略上，Pixio 展现出极高的纯粹性。不同于 DINOv3针对特定基准测试（如 ImageNet）进行重复优化，Pixio 从网络收集了20亿张图像，并采用动态频率调整:减少简单产品照的权重，增加复杂场景的训练频次。这种不针对测试集“刷分”的做法，反而赋予了模型更强的迁移能力。
数据对比显示，仅拥有6.31亿参数的 Pixio 在多项指标上超越了8.41亿参数的 DINOv3。在单目深度估计中，其准确率提升了16%;在3D 重建任务中，仅凭单张图像训练的 Pixio 甚至优于使用八视角训练的 DINOv3。同时，在机器人学习领域，Pixio 也以78.4% 的成功率领先于 DINOv2。尽管研究团队承认人工掩蔽存在局限性，并计划向视频预测方向探索，但 Pixio 目前取得的突破已足以证明:回归像素重建的本质，往往能通向更深层的视觉理解。

这是一篇关于以简胜繁:Meta AI 推出 Pixio 图像模型，凭借像素重建刷新3D 重建纪录的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：智谱 GLM-4.7 在编程竞赛中大放异彩，引领开源 AI 新时代！

下一篇：马斯克抨击政府医疗服务，预言Grok+Optimus将替代公共医疗计划：以AI临床分析与机器人外科技术构建“科技乌托邦”

化繁为简：Meta AI 新推出的 Pixio 图像模型，通过像素重建技术引领了3D 重构的新记录

最新Ai信息

最新Ai工具

热门AI推荐