首页 > 快讯 > 阿里巴巴发布Qwen-Image-Edit：突破性中文渲染性能超越GPT-4o，实现精准文本与语义外观双重控制

阿里巴巴发布Qwen-Image-Edit：突破性中文渲染性能超越GPT-4o，实现精准文本与语义外观双重控制

发布时间：2025-08-19 09:45:21 | 责任编辑：张毅 | 浏览量：347 次

阿里通义千问团队正式开源了其最新图像编辑模型 Qwen-Image-Edit，这是继 Qwen-Image 之后，通义千问系列在图像生成与编辑领域的又一重磅力作。作为一个基于20B 参数多模态扩散变换器（MMDiT）的图像编辑基础模型，Qwen-Image-Edit 在精准文本编辑、语义与外观编辑方面展现出卓越性能，尤其在中文文本渲染上实现了行业领先的表现。
Qwen-Image-Edit 继承了 Qwen-Image 的核心优势，在文本渲染能力上进一步升级。无论是英文还是中文，它都能实现高保真的文本编辑，支持直接在图像中添加、删除或修改文本，同时保留原有字体、大小和风格。尤其在中文场景下，模型能够处理多行布局、段落级文本生成以及书法对联等复杂排版需求，单字渲染准确率高达97.29%，远超其他顶级模型如 Seedream3.0（53.48%）和 GPT Image1(68.37%)。
例如，Qwen-Image-Edit 可以轻松将海报上的“Hope”替换为“Qwen”，或在书法作品中修正错误字符，同时保持图像整体的视觉一致性。这种精准的文本编辑能力使其在广告设计、品牌宣传和内容创作中具有巨大潜力。
Qwen-Image-Edit 的核心技术创新在于其双重编码机制。在图像编辑过程中，输入图像同时经过 Qwen2.5-VL 模型进行语义编码，提取高层场景和对象关系特征;以及变分自编码器（VAE）进行重建编码，保留底层视觉细节如纹理和颜色。这种机制确保了模型在执行复杂编辑指令时，既能理解语义意图，又能保持视觉保真度。
例如，在语义编辑中，Qwen-Image-Edit 可以将图像中的人物姿态调整为“弯腰牵狗爪”，同时保持人物身份和背景一致;在外观编辑中，它能精确添加元素（如带有真实反射的标牌）或移除细微细节(如头发丝)，而其他区域保持不变。这种“语义+外观”的双重控制使其在 IP 创作、风格迁移和新视角合成等场景中表现尤为出色。
通过增强的多任务训练范式，Qwen-Image-Edit 支持文本到图像（T2I）、图像到图像(I2I)以及文本引导图像编辑(TI2I)等多种任务。模型在 GEdit、ImgEdit 和 GSO 等图像编辑基准测试中均取得 SOTA 性能，综合评分分别达到7.56(英文)、7.52(中文)，超越 GPT Image1和 FLUX.1Kontext 等竞争对手。
值得一提的是，Qwen-Image-Edit 的“链式编辑”能力尤为突出。例如，在书法纠错场景中，模型能够通过多轮迭代逐步修正错误字符，同时保持整体风格一致。这种能力大幅提升了创作效率，降低了专业视觉内容创作的门槛。
Qwen-Image-Edit 基于 Apache2.0协议完全开源，用户可通过 Hugging Face、ModelScope 等平台免费获取模型权重，或通过 Qwen Chat 的“Image Editing”功能在线体验。阿里还在 ComfyUI 中提供原生支持，并发布了详细的技术报告和快速上手指南，助力开发者快速集成。
社交媒体上，开发者对 Qwen-Image-Edit 的发布反响热烈，称其“将中文渲染和图像编辑能力拉到商用水准”，甚至有用户表示其效果“媲美甚至超越 GPT-4o 和 FLUX.1”。此外，模型支持多种 LoRA 模型（如 MajicBeauty LoRA），进一步扩展了其在高真实感图像生成中的应用场景。
Qwen-Image-Edit 的多功能特性使其适用于多种场景，包括但不限于:
用户反馈显示，Qwen-Image-Edit 的直观操作和高质量输出使其成为非专业设计者的理想工具。例如，一位内容创作者表示:“Qwen-Image-Edit 让我在几分钟内完成营销视觉设计，文本渲染精准，效果堪比专业软件。”
作为阿里通义千问团队的最新力作，Qwen-Image-Edit 以其强大的文本编辑能力、双重编码机制和开源特性，为 AI 图像生成与编辑领域树立了新标杆。无论是中文渲染的断层式领先，还是语义与外观编辑的平衡表现，Qwen-Image-Edit 都展现了其作为行业顶尖模型的实力。
github：https://github.com/QwenLM/Qwen-Image

阿里通义千问团队今天（2025-08-19）正式开源了新一代图像编辑大模型 Qwen-Image-Edit。作为基于 20B 参数 MMDiT（多模态扩散 Transformer）架构的专用编辑模型，它在中文文本渲染、精准文本编辑以及语义-外观双重控制三大维度上，均被官方和第三方评测“碾压”GPT-4o 等顶级闭源模型。

中文渲染“断层式”领先
- 在 3500 个一级常用汉字的渲染基准 ChineseWord 上，Qwen-Image-Edit 单字准确率 97.29 %，而 GPT Image1 仅 68.37 %，Seedream3.0 仅 53.48 %。
- 支持多行段落、对联、竖排、书法等复杂中文排版，且能保留原图的字体、字号、颜色与风格。
精准文本编辑：增删改一字不留痕
- 可直接在图中“无 PS 痕迹”地替换、插入或删除中英文文字，例如把海报上的 “Hope” 改成 “通义千问”，或纠正书法作品的错字而保持整体风格一致。
- 官方称该能力为“链式编辑”，可迭代多轮修正，广告、品牌、内容创作场景效率大幅提升。
语义 + 外观“双控”
- 输入图像同时被两条通路处理：
  – Qwen2.5-VL 提取高层语义（对象、姿态、场景关系）；
  – VAE 保留低层外观（纹理、颜色、光照）。
- 结果：既能执行“让人物弯腰牵狗”这种语义级重绘，又能做到“只改头发丝”这种像素级细节增删，背景与身份保持一致。
基准成绩与开源方案
- 在 GEdit、ImgEdit、GSO 等权威编辑基准均夺 SOTA，综合评分 7.56（英）、7.52（中），高于 GPT Image1 与 FLUX.1 Kontext。
- Apache 2.0 协议完全开源，权重已在 Hugging Face、ModelScope 上线，并集成进官方 Qwen Chat（chat.qwen.ai → 选“图像编辑”）。

一句话总结：如果你需要“把中文海报里的‘人工智能’改成‘通义千问’而不被看出痕迹”，或者“让原画角色换姿势换角度但保持脸部一致”，Qwen-Image-Edit 目前几乎是开源界唯一能做到商用级效果的模型，且免费。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Gemini API迎来重大更新！全新URL Context功能启动，开启网站内容直接盈利的新纪元！

下一篇： ChatGPT Go全新订阅方案由OpenAI在印度启动，每月仅需支付5美元

阿里巴巴发布Qwen-Image-Edit：突破性中文渲染性能超越GPT-4o，实现精准文本与语义外观双重控制

最新Ai信息

最新Ai工具

热门AI推荐