首页 > 快讯 > 中山大学与美团合作开发X-SAM模型，实现一次操作分割多重目标，在20项评估中均居首位

中山大学与美团合作开发X-SAM模型，实现一次操作分割多重目标，在20项评估中均居首位

发布时间：2025-08-19 16:00:57 | 责任编辑：张毅 | 浏览量：88 次

中山大学、鹏城实验室与美团三方联合研发的X-SAM图像分割模型近期正式发布，这款多模态大模型在图像分割领域实现了重要突破，将传统的"分割万物"能力升级为"任意分割"，显著提升了模型的适应性和应用范围。
传统的Segment Anything Model（SAM）虽然在生成密集分割掩码方面表现出色，但其只能接受单一视觉提示输入的设计局限性明显。针对这一技术瓶颈，研究团队创新性地提出了视觉定位分割(Visual Grounded Segmentation， VGS)任务框架，通过交互式视觉提示实现对所有实例对象的精确分割，为多模态大语言模型提供了像素级的理解能力。
X-SAM的技术架构采用了多项创新设计。模型支持统一的输入格式和输出表示，能够处理多种类型的视觉和文本查询输入。其核心的双编码器架构确保了对图像内容和分割特征的深度理解，而分割连接器则提供多尺度信息融合，大幅提升分割精度。
最值得关注的是，X-SAM集成了最新的Mask2Former架构作为分割解码器，这使得模型能够在单次操作中同时分割多个目标对象，彻底突破了传统SAM只能处理单一对象的技术限制。这一改进不仅提高了处理效率，也为复杂场景下的批量分割任务提供了可能。
在模型训练方面，研究团队采用了三阶段渐进式训练策略，通过逐步增强的学习过程确保模型性能的稳定提升。经过在20多个主流分割数据集上的全面测试，X-SAM在对话生成分割任务和图文理解任务中均取得了领先的性能表现，验证了其技术方案的有效性。
X-SAM的发布为图像分割技术发展指明了新方向，也为构建更加智能的通用视觉理解系统提供了重要的技术基础。研究团队表示，下一步将重点探索该技术在视频领域的应用拓展，推动图像与视频分割技术的统一化发展，进一步提升机器视觉理解能力的边界。
这项研究成果不仅在学术层面具有重要意义，其在自动驾驶、医疗影像、工业检测等实际应用场景中的潜力也值得期待。随着模型开源和技术推广，预计将推动整个计算机视觉领域的快速发展。
论文地址:https://arxiv.org/pdf/2508.04655
代码地址:https://github.com/wanghao9610/X-SAM
Demo地址: https://47.115.200.157:7861

中山大学、鹏城实验室与美团联合推出的 X-SAM 模型，标志着图像分割领域重大突破，将分割范式从“分割万物”推向“任意分割”，并在 20 多个图像分割数据集 上全面超越现有模型，达到 SoTA（State-of-the-Art） 性能。

核心创新与技术亮点

统一多模态大模型架构：X-SAM 创新性地将多模态大语言模型（MLLMs）与高级像素级感知能力结合，通过 视觉定位分割（Visual Grounded Segmentation, VGS） 新任务，支持用户通过文本、点、框、涂鸦等多种交互式提示，单次操作即可分割多个对象。
跨任务泛化能力：X-SAM 支持通用分割、开放词汇分割、指代分割、推理分割等 7 大核心任务，在 COCO、RefCOCO、A150-OV 等 20+ 数据集 上均达到或超越当前最佳水平。
统一训练策略：采用 三阶段渐进式训练（分割器微调、对齐预训练、混合微调）及 数据集平衡重采样 策略，确保模型在不同规模数据集上的稳健性能。

实验结果与性能表现

通用分割：COCO 全景分割 PQ 达 54.7，接近 Mask2Former（57.8），远超 OMG-LLaVA（53.8）。
指代分割：RefCOCO、RefCOCO+、RefCOCOg 上 cIoU 分别为 85.1、78.0、83.8，大幅领先 PSALM 和 Sa2VA。
推理分割：在需要逻辑推理的任务中，gIoU 达 56.6，超越 LISA-7B（52.9），展现语言推理与视觉分割融合能力。

研究背景与团队

联合单位：中山大学、鹏城实验室、美团。
作者：第一作者王豪（中山大学博士研究生），通讯作者为梁小丹教授和蓝湘源副研究员。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： X-SAM：革新图像分割技术，开创自由分割的新纪元

下一篇： Firefox142悄然发布:并非喧嚣的更新中，本地AI功能已悄悄启程

中山大学与美团合作开发X-SAM模型，实现一次操作分割多重目标，在20项评估中均居首位

核心创新与技术亮点

实验结果与性能表现

研究背景与团队

资源链接

最新Ai信息

最新Ai工具

热门AI推荐