首页 > 快讯 > X-SAM:革新图像分割技术,开创自由分割的新纪元

X-SAM:革新图像分割技术,开创自由分割的新纪元

发布时间:2025-08-19 15:24:35 | 责任编辑:张毅 | 浏览量:5 次

近日,中山大学、鹏城实验室与美团联合发布了一项名为 X-SAM 的新型图像分割多模态大模型,标志着图像分割技术的一次重要进步。该模型的出现,不仅提高了图像分割的精度,还实现了从 “分割万物” 到 “任意分割” 的重大飞跃。
X-SAM 的核心在于其创新的设计理念,首先引入了统一的输入和输出格式,以适应不同的分割需求。用户可以通过文本查询或视觉查询的方式进行操作,前者适用于通用分割等任务,后者则可通过点、涂鸦等视觉提示实现交互式分割。此外,X-SAM 的输出采用统一表示,使得分割结果能够被有效解读。
为了提升分割效果,X-SAM 采用了双编码器架构,其中一个负责提取全局特征,另一个则关注细粒度特征。这种设计不仅增强了模型的图像理解能力,还确保了分割的精细化。同时,模型还引入了分割连接器和统一分割解码器,前者能够处理多尺度特征,后者则替换了传统的解码器架构,进一步提高了分割性能。
X-SAM 的训练过程分为三个阶段,第一阶段为分割器微调,旨在提升模型的基础分割能力;第二阶段进行对齐预训练,使语言与视觉的嵌入对齐;第三阶段则是混合微调,通过在多个数据集上进行协同训练来优化模型的整体性能。实验结果显示,X-SAM 在20多个分割数据集上均达到了最先进的性能,展现了其卓越的多模态视觉理解能力。
随着 X-SAM 的问世,研究团队希望未来能够将其应用扩展到视频领域,结合时间信息,推动视频理解技术的发展。这一新型模型的成功,不仅为图像分割研究开辟了新方向,也为构建更为通用的视觉理解系统奠定了基础。
代码地址:https://github.com/wanghao9610/X-SAM
Demo地址: https://47.115.200.157:7861
划重点:
🌟 X-SAM 模型实现了从 “分割万物” 到 “任意分割” 的重大飞跃,提升了图像分割的精度和应用范围。
💡 该模型引入统一输入输出格式,支持文本和视觉查询,提升用户交互体验。
🚀 经过三阶段训练,X-SAM 在20多个数据集上达到了最先进性能,为未来的视觉理解系统奠定基础。

X-SAM:革新图像分割技术,开创自由分割的新纪元

X-SAM 是由中山大学、鹏城实验室、美团联合提出的统一图像分割多模态大模型,成功将图像分割从「分割万物」(Segment Anything)推进到「任意分割」(Any Segmentation),在 20 余个分割基准上均实现了 SOTA(State-of-the-Art)性能。

核心创新

  • 统一的多模态大模型架构:X-SAM 设计了双编码器(全局图像编码器 SigLIP2-so400m 和局部分割编码器 SAM-L)、双投影器、大语言模型(LLM)、分割连接器和分割解码器,实现了文本查询(TextQuery)和视觉查询(VisionQuery)的统一处理,支持通用分割、开放词汇分割、指代分割等多种任务。

  • 视觉定位分割(VGD)新任务:提出了一种新的分割任务,通过交互式视觉提示(点、框、涂鸦等)分割所有同类实例对象,赋予 MLLMs 视觉定位的像素级理解能力。

  • 统一训练策略:支持跨数据集联合训练,采用三阶段渐进式训练策略(分割器微调、对齐预训练、混合微调),实现了多样化数据源的高效训练。

技术细节

  • 分割连接器:为分割解码器提供丰富的多尺度特征,通过下采样和上采样路径生成 1/32 和 1/8 尺度特征,并保持 1/16 尺度原始特征。

  • 统一分割解码器:采用 Mask2Former 架构,支持单次分割所有对象,克服 SAM 单对象分割限制,引入潜在背景嵌入以适配所有分割任务。

未来展望

X-SAM 的研究方向将聚焦于视频领域的扩展,包括与 SAM2 集成实现图像和视频的统一分割,以及将 VGD 分割扩展到视频中,引入时序信息,构建创新的视频分割任务。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐