中山大学与美团合作开发X-SAM模型,实现一次操作分割多重目标,在20项评估中均居首位
发布时间:2025-08-19 16:00:57 | 责任编辑:张毅 | 浏览量:11 次
中山大学、鹏城实验室与美团三方联合研发的X-SAM图像分割模型近期正式发布,这款多模态大模型在图像分割领域实现了重要突破,将传统的"分割万物"能力升级为"任意分割",显著提升了模型的适应性和应用范围。
传统的Segment Anything Model(SAM)虽然在生成密集分割掩码方面表现出色,但其只能接受单一视觉提示输入的设计局限性明显。针对这一技术瓶颈,研究团队创新性地提出了视觉定位分割(Visual Grounded Segmentation, VGS)任务框架,通过交互式视觉提示实现对所有实例对象的精确分割,为多模态大语言模型提供了像素级的理解能力。
X-SAM的技术架构采用了多项创新设计。模型支持统一的输入格式和输出表示,能够处理多种类型的视觉和文本查询输入。其核心的双编码器架构确保了对图像内容和分割特征的深度理解,而分割连接器则提供多尺度信息融合,大幅提升分割精度。
最值得关注的是,X-SAM集成了最新的Mask2Former架构作为分割解码器,这使得模型能够在单次操作中同时分割多个目标对象,彻底突破了传统SAM只能处理单一对象的技术限制。这一改进不仅提高了处理效率,也为复杂场景下的批量分割任务提供了可能。
在模型训练方面,研究团队采用了三阶段渐进式训练策略,通过逐步增强的学习过程确保模型性能的稳定提升。经过在20多个主流分割数据集上的全面测试,X-SAM在对话生成分割任务和图文理解任务中均取得了领先的性能表现,验证了其技术方案的有效性。
X-SAM的发布为图像分割技术发展指明了新方向,也为构建更加智能的通用视觉理解系统提供了重要的技术基础。研究团队表示,下一步将重点探索该技术在视频领域的应用拓展,推动图像与视频分割技术的统一化发展,进一步提升机器视觉理解能力的边界。
这项研究成果不仅在学术层面具有重要意义,其在自动驾驶、医疗影像、工业检测等实际应用场景中的潜力也值得期待。随着模型开源和技术推广,预计将推动整个计算机视觉领域的快速发展。
论文地址:https://arxiv.org/pdf/2508.04655
代码地址:https://github.com/wanghao9610/X-SAM
Demo地址: https://47.115.200.157:7861
中山大学、鹏城实验室与美团联合推出的 X-SAM 模型,标志着图像分割领域重大突破,将分割范式从“分割万物”推向“任意分割”,并在 20 多个图像分割数据集 上全面超越现有模型,达到 SoTA(State-of-the-Art) 性能。
核心创新与技术亮点
-
统一多模态大模型架构:X-SAM 创新性地将多模态大语言模型(MLLMs)与高级像素级感知能力结合,通过 视觉定位分割(Visual Grounded Segmentation, VGS) 新任务,支持用户通过文本、点、框、涂鸦等多种交互式提示,单次操作即可分割多个对象。
-
跨任务泛化能力:X-SAM 支持通用分割、开放词汇分割、指代分割、推理分割等 7 大核心任务,在 COCO、RefCOCO、A150-OV 等 20+ 数据集 上均达到或超越当前最佳水平。
-
统一训练策略:采用 三阶段渐进式训练(分割器微调、对齐预训练、混合微调)及 数据集平衡重采样 策略,确保模型在不同规模数据集上的稳健性能。
实验结果与性能表现
-
通用分割:COCO 全景分割 PQ 达 54.7,接近 Mask2Former(57.8),远超 OMG-LLaVA(53.8)。
-
指代分割:RefCOCO、RefCOCO+、RefCOCOg 上 cIoU 分别为 85.1、78.0、83.8,大幅领先 PSALM 和 Sa2VA。
-
推理分割:在需要逻辑推理的任务中,gIoU 达 56.6,超越 LISA-7B(52.9),展现语言推理与视觉分割融合能力。
研究背景与团队
-
联合单位:中山大学、鹏城实验室、美团。
-
作者:第一作者王豪(中山大学博士研究生),通讯作者为梁小丹教授和蓝湘源副研究员。
资源链接
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。