首页 > 快讯 > Meta 推出 DINOv3：一款无需标签的多功能图像处理AI模型

Meta 推出 DINOv3：一款无需标签的多功能图像处理AI模型

发布时间：2025-08-18 11:42:28 | 责任编辑：吴昊 | 浏览量：213 次

Meta 近日宣布推出 DINOv3，这是一种无需标注数据的通用图像处理 AI 模型。该模型基于 17亿张图像进行自监督学习训练，并构建了 70亿个参数，使其能够处理各种图像任务和领域，几乎无需任何调整。
这一特性使得 DINOv3在那些标注数据有限的专业领域，如卫星图像处理，具有尤其重要的应用价值。Meta 表示，DINOv3在过去需要专门系统才能完成的挑战性基准测试中表现出色，其性能优于上一代模型 DINOv2，尽管提升幅度不如 v1到 v2那么显著。
为了推动该技术的普及和应用，Meta 已在 GitHub 上发布了多个预训练模型变体，以及适配器和训练与评估代码。这些资源均在 DINOv3许可证下开放，允许进行商业使用。
地址：https://github.com/facebookresearch/dinov3

Meta 刚刚开源的 DINOv3 被称为“视觉基础模型的又一次里程碑”。它最大的卖点是：用 17 亿张无标签图片 + 70 亿参数，只靠自监督学习（SSL）就把 10 大类、60 多项视觉基准一次性刷到 SOTA，而整个过程完全不需要人工标注。

为什么“无需标注”如此重要
• 传统 CV 模型要么靠昂贵的人力标注，要么用图文对弱监督；DINOv3 直接用图像本身的统计信号做预训练，省去了标注成本。
• 这对卫星遥感、医疗影像、自动驾驶等“难标注、标签稀缺”场景尤为关键——NASA 已经把 DINOv3 送上火星做地表分析。
技术升级一览
• 数据规模：17 亿张图，是 DINOv2 的 12 倍。
• 模型规模：70 亿参数 ViT-7B，比上一代大 7 倍。
• 新 trick：Gram Anchoring + 旋转位置编码（RoPE），缓解了高分辨率密集特征的坍缩问题，输出更干净的特征图。
开箱即用的“通用”能力
• 单一冻结骨干即可直接做图像分类、语义分割、深度估计、实例识别、视频跟踪等任务，无需额外微调。
• 高分辨率特征让它在树冠高度估计、医学影像、零售货架检测等细粒度任务上同样好用。
开源与商用
• GitHub 已放出完整代码、预训练权重和示例笔记本，商业许可直接可用。
• 额外提供了基于 MAXAR 卫星影像的专用骨干网络，方便遥感领域即插即用。

一句话总结：DINOv3 把“无标签预训练”做到了极致——更大规模、更强通用性、零标注成本，开发者拿到手就能在多领域直接落地。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Meta 发布 DINOv3：一种无需标签的智能图像解析AI工具

下一篇：欧洲人工智能初创公司推出”鸡脑”和”蝇脑”模型，94MB的极小AI能在苹果手表上离线操作

Meta 推出 DINOv3：一款无需标签的多功能图像处理AI模型

最新Ai信息

最新Ai工具

热门AI推荐