阿里巴巴通义千问推出开源新图像生成模型Qwen-Image
发布时间:2025-08-05 08:11:14 | 责任编辑:张毅 | 浏览量:10 次
通义千问系列首次开源了一款名为Qwen-Image的20亿参数多模态扩散变换器(MMDiT)图像生成基础模型。这一创新成果不仅在复杂文本渲染和精确图像编辑方面取得了突破性进展,更是在多个公开基准测试中展现了卓越性能,成为图像生成与编辑领域的新星。
Qwen-Image以其强大的文本渲染能力脱颖而出,支持多行布局、段落级文本生成及细粒度细节呈现,无论是英语还是中文,均能实现高保真输出。例如,在渲染宫崎骏风格的动漫场景时,模型能够精准呈现店铺牌匾、人物姿势及神态,甚至酒缸上的细小文字也清晰可见。同样,在中文对联的渲染中,Qwen-Image不仅准确绘制了左右联和横批,还巧妙融入了书法效果,令人叹为观止。
英文文本渲染方面,Qwen-Image同样表现出色。无论是书店橱窗的展示信息,还是复杂的信息图表,模型都能准确无误地生成文本内容,并巧妙融入整体构图,展现出高度的艺术性和信息性。更令人印象深刻的是,即便在处理更小或更多的文字时,Qwen-Image依然能够保持高度的准确性和清晰度,如准确生成手中纸张上的长段文字,或在玻璃板上完整呈现手写体段落。
除了文本渲染,Qwen-Image在图像编辑方面也展现了非凡实力。通过增强的多任务训练范式,模型在编辑过程中能出色保持一致性,支持风格迁移、物体增减、细节增强及人物姿态调整等多种操作。这使得普通用户也能轻松实现专业级的图像编辑,大大降低了视觉内容创作的技术门槛。
在多个公开基准测试中,Qwen-Image的表现更是令人瞩目。从通用图像生成的GenEval、DPG和OneIG-Bench,到图像编辑的GEdit、ImgEdit和GSO,Qwen-Image均取得了最先进的性能,展现了其在图像生成与编辑方面的全面优势。特别是在中文文本渲染上,Qwen-Image大幅领先现有最先进模型,凸显了其作为先进图像生成模型的独特地位。
目前,Qwen-Image已在魔搭社区、Hugging Face及GitHub等平台开源,并提供了详细的Technical report和Demo展示。用户可通过访问QwenChat(chat.qwen.ai)选择“图像生成”功能,亲身体验这款强大模型的魅力。
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
GitHub:https://github.com/QwenLM/Qwen-Image
Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced
2025年8月5日,阿里巴巴通义千问宣布开源首个图像生成基础模型 Qwen-Image,这是一个基于 MMDiT 架构 的 20B 参数 文生图大模型。
核心亮点
-
卓越文本渲染:支持中英双语段落级、多行布局的高保真文本生成,适合海报、封面等复杂场景。
-
零偏移一致性编辑:在多轮图像编辑中保持内容一致性,避免风格或结构突变。
-
SOTA 性能:在多个公开基准测试中达到当前最优水平,覆盖文本到图像生成、图像编辑等任务。
开源与获取
-
完全开源:模型权重与代码已同步发布至 Hugging Face 等社区,开发者可自由下载与微调。
-
工具链支持:阿里云百炼平台提供 API 调用与微调工具,支持快速部署。
应用示例
-
原生文本海报:可直接生成带有精美排版中文或英文的广告海报。
-
创意设计:通过文本指令迭代修改图像细节(如颜色、物体位置),无需重新生成。
Qwen-Image 的开源进一步降低了高质量文生图模型的使用门槛,标志着通义千问从语言模型向多模态生成的重要跨越。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。