首页 > 快讯 > Meta 推出 DINOv3:一款无需标签的多功能图像处理AI模型

Meta 推出 DINOv3:一款无需标签的多功能图像处理AI模型

发布时间:2025-08-18 11:42:28 | 责任编辑:吴昊 | 浏览量:4 次

Meta 近日宣布推出 DINOv3,这是一种无需标注数据的通用图像处理 AI 模型。该模型基于 17亿张图像进行自监督学习训练,并构建了 70亿个参数,使其能够处理各种图像任务和领域,几乎无需任何调整。
这一特性使得 DINOv3在那些标注数据有限的专业领域,如卫星图像处理,具有尤其重要的应用价值。Meta 表示,DINOv3在过去需要专门系统才能完成的挑战性基准测试中表现出色,其性能优于上一代模型 DINOv2,尽管提升幅度不如 v1到 v2那么显著。
为了推动该技术的普及和应用,Meta 已在 GitHub 上发布了多个预训练模型变体,以及适配器和训练与评估代码。这些资源均在 DINOv3许可证下开放,允许进行商业使用。
地址:https://github.com/facebookresearch/dinov3

Meta 推出 DINOv3:一款无需标签的多功能图像处理AI模型

Meta 刚刚开源的 DINOv3 被称为“视觉基础模型的又一次里程碑”。它最大的卖点是:用 17 亿张无标签图片 + 70 亿参数,只靠自监督学习(SSL)就把 10 大类、60 多项视觉基准一次性刷到 SOTA,而整个过程完全不需要人工标注

  1. 为什么“无需标注”如此重要
    • 传统 CV 模型要么靠昂贵的人力标注,要么用图文对弱监督;DINOv3 直接用图像本身的统计信号做预训练,省去了标注成本。
    • 这对卫星遥感、医疗影像、自动驾驶等“难标注、标签稀缺”场景尤为关键——NASA 已经把 DINOv3 送上火星做地表分析。

  2. 技术升级一览
    • 数据规模:17 亿张图,是 DINOv2 的 12 倍。
    • 模型规模:70 亿参数 ViT-7B,比上一代大 7 倍。
    • 新 trick:Gram Anchoring + 旋转位置编码(RoPE),缓解了高分辨率密集特征的坍缩问题,输出更干净的特征图。

  3. 开箱即用的“通用”能力
    • 单一冻结骨干即可直接做图像分类、语义分割、深度估计、实例识别、视频跟踪等任务,无需额外微调。
    • 高分辨率特征让它在树冠高度估计、医学影像、零售货架检测等细粒度任务上同样好用。

  4. 开源与商用
    • GitHub 已放出完整代码、预训练权重和示例笔记本,商业许可直接可用。
    • 额外提供了基于 MAXAR 卫星影像的专用骨干网络,方便遥感领域即插即用。

一句话总结:DINOv3 把“无标签预训练”做到了极致——更大规模、更强通用性、零标注成本,开发者拿到手就能在多领域直接落地。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐