Step1X-Edit:革新开放图像编辑,成为瞩目的新标准,与GPT-4o等专有模型相媲美
发布时间:2025-04-27 09:18:16 | 责任编辑:吴昊 | 浏览量:6 次
2025年4月27日,小编报道:由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源,引发业界广泛关注。这一通用图像编辑框架以其卓越性能和实用的开源特性,展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。
以下是对Step1X-Edit的全面解析,涵盖其技术亮点、应用场景及未来影响。
Step1X-Edit采用多模态大语言模型(MLLM)与扩散变换器(DiT)的结合,通过处理用户提供的参考图像和编辑指令,生成高质量的目标图像。其核心创新在于将多模态语言模型的语义理解能力与扩散模型的图像生成能力相融合。模型通过提取潜在嵌入并与扩散图像解码器集成,能够精准响应多样化的编辑需求。
训练过程中,团队构建了包含超过100万高质量三元组(参考图像、指令、目标图像)的数据管道,覆盖11种编辑类型,确保模型在复杂场景下的鲁棒性。
为更真实地评估图像编辑模型的性能,Stepfun AI团队发布了全新基准GEdit-Bench。该基准基于现实世界的用户指令设计,涵盖广泛的编辑场景,从简单的色彩调整到复杂的对象添加或场景重构。
实验结果显示,Step1X-Edit在GEdit-Bench上的表现大幅超越现有开源基线模型,接近领先的闭源模型水平。这一基准的开源发布为图像编辑领域的研究提供了更贴近实际需求的评测工具,标志着行业评估标准的进步。
Step1X-Edit的代码、模型权重及GEdit-Bench评测数据已于2025年4月25日通过Hugging Face和ModelScope平台开放。模型支持在单块H800 GPU上运行,推荐使用80GB显存以获得最佳生成质量。
对于512x512分辨率的图像,模型可在42GB显存下于5秒内完成编辑;1024x1024分辨率则需50GB显存,耗时约22秒。官方提供的推理代码和安装脚本进一步降低了使用门槛,支持Python 3.10及以上版本,兼容主流深度学习框架如PyTorch 2.3.1及2.5.1。
Step1X-Edit的灵活性和高精度使其适用于多种场景。无论是专业设计师优化创意作品,还是普通用户进行照片美化,该模型都能通过简单指令实现复杂编辑。
例如,用户可以通过文本描述实现背景替换、对象移除或风格迁移,生成专业品质的图像。此外,模型已在fal.ai等平台上线,用户可通过在线演示体验其功能。这一开源模型的发布为内容创作者、开发者和研究人员提供了强大的工具,助力图像编辑的普及和创新。
Step1X-Edit的开源不仅推动了图像编辑技术的发展,也为开源社区注入了新的活力。相较于依赖专有数据的闭源模型,Step1X-Edit通过透明的训练流程和高可复现性,为学术界和开发者提供了研究和优化的基础。
业界人士认为,该模型的发布可能促使更多企业探索开源AI的商业化路径,同时激励闭源模型提供商进一步提升性能。
尽管Step1X-Edit已展现出强大实力,但其高显存需求可能限制部分用户的访问。未来,团队计划优化模型效率,降低硬件门槛,并扩展支持更多编辑类型和分辨率。此外,GEdit-Bench的持续更新将进一步丰富评测场景,助力行业形成统一的性能标准。小编将持续关注Step1X-Edit的进展,为您带来开源AI领域的最新动态。
体验地址:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit
Step1X-Edit 是由 Stepfun AI 团队推出的一款开源图像编辑模型,它在性能上能够媲美 GPT-4o 和 Gemini2 Flash 等闭源模型。以下是关于 Step1X-Edit 的详细介绍:
技术架构
-
多模态大语言模型与扩散变换器结合:Step1X-Edit 采用多模态大语言模型(MLLM)处理用户提供的参考图像和编辑指令,提取潜在嵌入并与扩散图像解码器集成,从而生成高质量的目标图像。
-
高质量数据集:团队构建了包含超过 100 万高质量三元组(参考图像、指令、目标图像)的数据管道,覆盖 11 种编辑类型,确保模型在复杂场景下的鲁棒性。
性能表现
-
超越开源基线,接近闭源模型:在 Stepfun AI 团队发布的全新基准 GEdit-Bench 上,Step1X-Edit 的表现大幅超越现有开源基线模型,接近领先的闭源模型水平。
-
具体指标:
-
在 512x512 分辨率下,模型可在 42GB 显存下于 5 秒内完成编辑。
-
在 1024x1024 分辨率下,需要 50GB 显存,耗时约 22 秒。
-
开源资源
-
代码与模型权重:Step1X-Edit 的代码、模型权重及 GEdit-Bench 评测数据已于 2025 年 4 月 25 日通过 Hugging Face 和 ModelScope 平台开放。
-
硬件要求:模型支持在单块 H800 GPU 上运行,推荐使用 80GB 显存以获得最佳生成质量。
应用场景
-
专业设计与创意优化:Step1X-Edit 的灵活性和高精度使其适用于专业设计师优化创意作品。
-
普通用户照片美化:普通用户可以通过简单指令实现复杂编辑,如背景替换、对象移除或风格迁移。
对行业的意义
-
推动开源社区发展:Step1X-Edit 的开源为学术界和开发者提供了研究和优化的基础,推动了图像编辑技术的实用化和用户导向化评价。
-
激励闭源模型提升:该模型的发布可能促使更多企业探索开源 AI 的商业化路径,同时激励闭源模型提供商进一步提升性能。
未来展望
-
优化模型效率:尽管 Step1X-Edit 已展现出强大实力,但其高显存需求可能限制部分用户的访问。未来,团队计划优化模型效率,降低硬件门槛,并扩展支持更多编辑类型和分辨率。
-
丰富评测场景:GEdit-Bench 的持续更新将进一步丰富评测场景,助力行业形成统一的性能标准。
总的来说,Step1X-Edit 作为一款开源图像编辑模型,凭借其卓越的性能和广泛的适用性,有望成为图像编辑领域的新标杆。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。