全新Qwen VLo推出:通义千问的多模态统一理解和生成系统
发布时间:2025-06-30 09:20:31 | 责任编辑:张毅 | 浏览量:10 次
近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。
据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat(chat.qwen.ai)平台上直接体验这一新模型。
Qwen VLo的独特之处在于其渐进式生成方式。模型在生成图片时,采用从左到右、从上到下的逐步构建策略,过程中不断对预测内容进行优化调整,确保最终结果的和谐一致。这种生成机制不仅提升了视觉效果,还为用户提供了更灵活、可控的创作过程。
在内容理解与再创造方面,Qwen VLo展现了强大的能力。与以往的多模态模型相比,Qwen VLo在生成过程中能够更好地保持语义一致性,避免将汽车误生成其他物体或无法保留原图关键结构特征的问题。例如,当用户输入一张汽车照片并要求更换颜色时,Qwen VLo能准确识别车型,保留原有结构特征,并自然转换色彩风格,使生成结果既符合预期又不失真实感。
此外,Qwen VLo还支持开放指令编辑修改生成。用户可以通过自然语言提出各种创意性指令,如改变画风、添加元素或调整背景等。模型能够灵活响应这些指令,并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰,Qwen VLo都能轻松应对。
值得一提的是,Qwen VLo还具备多语言指令支持能力。该模型支持包括中文、英文在内的多种语言指令,为全球用户提供了统一且便捷的交互体验。无论用户使用哪种语言,只需简单描述需求,模型便能快速理解并输出理想结果。
在实际应用中,Qwen VLo展现了多样化的功能。它可以直接生成图像并进行修改,如替换背景、添加主体或进行风格迁移等。同时,模型还能完成基于开放指令的大幅修改,包括检测和分割等视觉感知任务。此外,Qwen VLo还支持多张图像的输入理解和生成,以及图像检测、标注等功能。
除了图文同时输入的情况外,Qwen VLo还支持文本到图像的直接生成,包括通用图像和中英文海报等。模型采用动态分辨率训练,支持任意分辨率和长宽比的图像生成,使用户能够根据实际需求生成适配不同场景的图像内容。
目前,Qwen VLo还处于预览阶段,虽然已展现出强大的能力,但仍存在一些不足之处。例如,在生成过程中可能存在不符合事实或不完全与原图一致的情况。研发团队表示,他们将持续迭代模型,不断提升其性能和稳定性。
体验地址:chat.qwen.ai
阿里云通义千问于2025年6月27日正式推出了Qwen VLo,这是一个多模态统一理解与生成模型。以下是关于Qwen VLo的详细介绍:
模型能力
-
精准理解与高质量生成:Qwen VLo能够精准理解图像内容,并在此基础上进行一致性和高质量的生成。它在图像内容理解与生成方面取得了显著进展,避免了以往多模态模型在生成过程中容易出现的语义不一致问题。
-
渐进式生成机制:Qwen VLo采用从左到右、从上到下的渐进式生成方式,逐步构建图像内容。在生成过程中,模型会不断调整和优化预测内容,确保最终结果的和谐一致。这种机制特别适用于需要精细控制的长段落文字生成任务。
-
动态分辨率训练与生成:Qwen VLo支持动态分辨率训练与生成,无论是输入端还是输出端,都支持任意分辨率和长宽比的图像。这意味着用户可以根据实际需求生成适配不同场景的图像内容。
-
开放指令编辑修改生成:用户可以通过自然语言提出各种创意性指令,如改变画风、添加元素或调整背景等。Qwen VLo能够灵活响应这些开放性指令,并生成符合用户预期的结果。
-
多语言指令支持:Qwen VLo支持包括中文、英文在内的多种语言指令,打破了语言壁垒,为全球用户提供了统一且便捷的交互体验。
模型架构
-
视觉编码器:采用Vision Transformer(ViT)架构,将输入图像分割成多个固定大小的Patch,并将其转换为序列化的特征向量。为了支持动态分辨率,Qwen VLo修改了ViT,去除了原始的绝对位置嵌入,并引入了2D-RoPE来捕获图像的二维位置信息。
-
输入投影层:通过一个单层的交叉注意力模块,将视觉特征序列压缩到固定长度,以提高处理效率。同时,该模块会整合二维绝对位置编码,以保留位置信息。
-
大型语言模型:以Qwen-7B为基础,使用预训练权重进行初始化,负责处理语言模态的输入。
-
输出投影层:将LLM生成的特征映射到模态生成器可理解的特征空间,通常是一个简单的Transformer层或MLP层。
-
模态生成器:基于LDM的衍生模型,负责生成最终的图像输出。
训练方法
-
单任务大规模预训练:使用大量图文对数据进行预训练,训练数据的图片统一处理为224×224的尺寸。此阶段主要训练模型的视觉模态对齐语言模型的能力。
-
多任务预训练:使用更高分辨率(448×448)的数据,引入多个视觉和文本生成任务,提升模型的多模态任务处理能力。
-
指令微调:通过人工标注、模型生成等方式构造多模态多轮会话数据,提升模型的指令遵循能力和对话能力。
应用场景
Qwen VLo适用于多种场景,包括但不限于:
-
图像编辑与风格迁移:用户可以通过自然语言指令要求模型对图像进行风格转换、场景重构或细节修饰。
-
创意设计:如海报设计、插图创作、网页Banner制作、社交媒体封面设计等。Qwen VLo能够根据用户的需求生成适配不同场景的图像内容。
-
长段落文字生成任务:如广告设计、漫画分镜创作等。Qwen VLo的渐进式生成机制让用户可以实时观察生成过程,并根据需要进行调整。
体验方式
用户可以通过Qwen Chat(chat.qwen.ai)进行Qwen VLo的体验。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。