首页 > 快讯 > 推出新一代开源视觉编码器 OpenVision：优于CLIP与SigLIP的卓越选择

推出新一代开源视觉编码器 OpenVision：优于CLIP与SigLIP的卓越选择

发布时间：2025-05-13 11:54:37 | 责任编辑：吴昊 | 浏览量：136 次

加州大学圣克鲁兹分校近日宣布推出 OpenVision，这是一个全新的视觉编码器系列，旨在为 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型提供替代方案。OpenVision 的发布为开发者和企业带来了更多灵活性和选择，使得图像处理和理解变得更加高效。
什么是视觉编码器?
视觉编码器是一种人工智能模型，它将视觉材料（通常是上传的静态图像）转化为可被其他非视觉模型(如大型语言模型)理解的数值数据。视觉编码器是连接图像和文本理解的重要桥梁，使得大型语言模型能够识别图像中的主题、颜色、位置等特征，从而进行更复杂的推理和交互。
OpenVision 的功能特点
1. ** 多样的模型选择 **
OpenVision 提供了26种不同的模型，参数规模从590万到6.32亿不等。这样的多样性使得开发者可以根据具体的应用场景选择合适的模型，无论是在建筑工地识别图像，还是为用户的家用电器提供故障排除指导。
2. ** 灵活的部署架构 **
OpenVision 的设计适应了多种使用场景。较大的模型适合服务器级负载，要求高准确率和详细的视觉理解，而较小的变体则优化为边缘计算，适合计算和内存有限的环境。同时，模型支持自适应补丁大小（8×8和16×16），可在细节分辨率和计算负载之间进行灵活权衡。
3. ** 出色的多模态基准测试表现 **
在一系列基准测试中，OpenVision 在多种视觉 - 语言任务上表现优异。尽管 OpenVision 的评估仍包括传统的 CLIP 基准（如 ImageNet 和 MSCOCO），但研究团队强调不应仅依赖这些指标来评估模型性能。他们建议采用更广泛的基准覆盖和开放评估协议，以更好地反映真实世界的多模态应用。
4. ** 高效的渐进式训练策略 **
OpenVision 采用了一种渐进式分辨率训练策略，模型在低分辨率图像上开始训练，并逐步微调到更高的分辨率。这种方法提高了训练效率，通常比 CLIP 和 SigLIP 快2到3倍，且不损失下游性能。
5. ** 优化轻量级系统和边缘计算应用 **
OpenVision 也旨在与小型语言模型有效结合。在一项实验中，视觉编码器与一个150万参数的 Smol-LM 模型结合，构建了一个整体参数低于250万的多模态模型，尽管模型体积小，但在视觉问答、文档理解等任务上依然保持了良好的准确性。
企业应用的重要性
OpenVision 的全面开源和模块化开发方法对企业技术决策者具有战略意义。它不仅为大型语言模型的开发和部署提供了即插即用的高性能视觉能力，还确保了企业的专有数据不会泄露。此外，OpenVision 的透明架构使得安全团队能够监测和评估模型潜在的脆弱性。
OpenVision 模型库现已在 PyTorch 和 JAX 实现，并在 Hugging Face 上提供下载，训练配方也已公开。通过提供透明、高效和可扩展的替代方案，OpenVision 为研究人员和开发者提供了一个灵活的基础，以推动视觉 - 语言应用的发展。
项目：https://ucsc-vlaa.github.io/OpenVision/

OpenVision：超越 CLIP 与 SigLIP 的强大选择

1. 项目背景

OpenVision 是由加州大学圣克鲁兹分校推出的一个全新的视觉编码器系列，旨在为 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型提供替代方案。长期以来，OpenAI 的 CLIP 一直是构建多模态基础模型时视觉编码器的首选，但其训练数据和详细框架仍未公开，限制了透明度和可重复性。此外，CLIP 仅提供两种参数规模（Base 和 Large），这既阻碍了轻量级模型在边缘设备上的部署，也限制了对复杂任务的高容量编码器的探索。OpenVision 的发布填补了这一空白，它是一个完全开放、具有成本效益的视觉编码器家族，在多模态学习场景中表现出色。

2. 技术特点

多样的模型选择：OpenVision 提供了 26 种不同的模型，参数规模从 590 万到 6.32 亿不等。这使得开发者可以根据具体的应用场景选择合适的模型，无论是在建筑工地识别图像，还是为用户的家用电器提供故障排除指导。
灵活的部署架构：OpenVision 的设计适应了多种使用场景。较大的模型适合服务器级负载，要求高准确率和详细的视觉理解，而较小的变体则优化为边缘计算，适合计算和内存有限的环境。同时，模型支持自适应补丁大小（8×8 和 16×16），可在细节分辨率和计算负载之间进行灵活权衡。
出色的多模态基准测试表现：在一系列基准测试中，OpenVision 在多种视觉 - 语言任务上表现优异。尽管 OpenVision 的评估仍包括传统的 CLIP 基准（如 ImageNet 和 MSCOCO），但研究团队强调不应仅依赖这些指标来评估模型性能。他们建议采用更广泛的基准覆盖和开放评估协议，以更好地反映真实世界的多模态应用。
高效的渐进式训练策略：OpenVision 采用了一种渐进式分辨率训练策略，模型在低分辨率图像上开始训练，并逐步微调到更高的分辨率。这种方法提高了训练效率，通常比 CLIP 和 SigLIP 快 2 到 3 倍，且不损失下游性能。
优化轻量级系统和边缘计算应用：OpenVision 也旨在与小型语言模型有效结合。在一项实验中，视觉编码器与一个 150 万参数的 Smol-LM 模型结合，构建了一个整体参数低于 250 万的多模态模型，尽管模型体积小，但在视觉问答、文档理解等任务上依然保持了良好的准确性。

3. 项目意义

OpenVision 的全面开源和模块化开发方法对企业技术决策者具有战略意义。它不仅为大型语言模型的开发和部署提供了即插即用的高性能视觉能力，还确保了企业的专有数据不会泄露。此外，OpenVision 的透明架构使得安全团队能够监测和评估模型潜在的脆弱性。OpenVision 模型库现已在 PyTorch 和 JAX 实现，并在 Hugging Face 上提供下载，训练配方也已公开。通过提供透明、高效和可扩展的替代方案，OpenVision 为研究人员和开发者提供了一个灵活的基础，以推动视觉 - 语言应用的发展。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。