首页 > 快讯 > 全新Qwen VLo推出：通义千问的多模态统一理解和生成系统

全新Qwen VLo推出：通义千问的多模态统一理解和生成系统

发布时间：2025-06-30 09:20:31 | 责任编辑：张毅 | 浏览量：80 次

近日，Qwen VLo多模态大模型正式发布，该模型在图像内容理解与生成方面取得了显著进展，为用户带来了全新的视觉创作体验。
据介绍，Qwen VLo在继承原有Qwen-VL系列模型优势的基础上，进行了全面升级。该模型不仅能够精准“看懂”世界，更能基于理解进行高质量的再创造，真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat（chat.qwen.ai）平台上直接体验这一新模型。
Qwen VLo的独特之处在于其渐进式生成方式。模型在生成图片时，采用从左到右、从上到下的逐步构建策略，过程中不断对预测内容进行优化调整，确保最终结果的和谐一致。这种生成机制不仅提升了视觉效果，还为用户提供了更灵活、可控的创作过程。
在内容理解与再创造方面，Qwen VLo展现了强大的能力。与以往的多模态模型相比，Qwen VLo在生成过程中能够更好地保持语义一致性，避免将汽车误生成其他物体或无法保留原图关键结构特征的问题。例如，当用户输入一张汽车照片并要求更换颜色时，Qwen VLo能准确识别车型，保留原有结构特征，并自然转换色彩风格，使生成结果既符合预期又不失真实感。
此外，Qwen VLo还支持开放指令编辑修改生成。用户可以通过自然语言提出各种创意性指令，如改变画风、添加元素或调整背景等。模型能够灵活响应这些指令，并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰，Qwen VLo都能轻松应对。
值得一提的是，Qwen VLo还具备多语言指令支持能力。该模型支持包括中文、英文在内的多种语言指令，为全球用户提供了统一且便捷的交互体验。无论用户使用哪种语言，只需简单描述需求，模型便能快速理解并输出理想结果。
在实际应用中，Qwen VLo展现了多样化的功能。它可以直接生成图像并进行修改，如替换背景、添加主体或进行风格迁移等。同时，模型还能完成基于开放指令的大幅修改，包括检测和分割等视觉感知任务。此外，Qwen VLo还支持多张图像的输入理解和生成，以及图像检测、标注等功能。
除了图文同时输入的情况外，Qwen VLo还支持文本到图像的直接生成，包括通用图像和中英文海报等。模型采用动态分辨率训练，支持任意分辨率和长宽比的图像生成，使用户能够根据实际需求生成适配不同场景的图像内容。
目前，Qwen VLo还处于预览阶段，虽然已展现出强大的能力，但仍存在一些不足之处。例如，在生成过程中可能存在不符合事实或不完全与原图一致的情况。研发团队表示，他们将持续迭代模型，不断提升其性能和稳定性。
体验地址:chat.qwen.ai

阿里云通义千问于2025年6月27日正式推出了Qwen VLo，这是一个多模态统一理解与生成模型。以下是关于Qwen VLo的详细介绍：

模型能力

精准理解与高质量生成：Qwen VLo能够精准理解图像内容，并在此基础上进行一致性和高质量的生成。它在图像内容理解与生成方面取得了显著进展，避免了以往多模态模型在生成过程中容易出现的语义不一致问题。
渐进式生成机制：Qwen VLo采用从左到右、从上到下的渐进式生成方式，逐步构建图像内容。在生成过程中，模型会不断调整和优化预测内容，确保最终结果的和谐一致。这种机制特别适用于需要精细控制的长段落文字生成任务。
动态分辨率训练与生成：Qwen VLo支持动态分辨率训练与生成，无论是输入端还是输出端，都支持任意分辨率和长宽比的图像。这意味着用户可以根据实际需求生成适配不同场景的图像内容。
开放指令编辑修改生成：用户可以通过自然语言提出各种创意性指令，如改变画风、添加元素或调整背景等。Qwen VLo能够灵活响应这些开放性指令，并生成符合用户预期的结果。
多语言指令支持：Qwen VLo支持包括中文、英文在内的多种语言指令，打破了语言壁垒，为全球用户提供了统一且便捷的交互体验。

模型架构

视觉编码器：采用Vision Transformer（ViT）架构，将输入图像分割成多个固定大小的Patch，并将其转换为序列化的特征向量。为了支持动态分辨率，Qwen VLo修改了ViT，去除了原始的绝对位置嵌入，并引入了2D-RoPE来捕获图像的二维位置信息。
输入投影层：通过一个单层的交叉注意力模块，将视觉特征序列压缩到固定长度，以提高处理效率。同时，该模块会整合二维绝对位置编码，以保留位置信息。
大型语言模型：以Qwen-7B为基础，使用预训练权重进行初始化，负责处理语言模态的输入。
输出投影层：将LLM生成的特征映射到模态生成器可理解的特征空间，通常是一个简单的Transformer层或MLP层。
模态生成器：基于LDM的衍生模型，负责生成最终的图像输出。

训练方法

单任务大规模预训练：使用大量图文对数据进行预训练，训练数据的图片统一处理为224×224的尺寸。此阶段主要训练模型的视觉模态对齐语言模型的能力。
多任务预训练：使用更高分辨率（448×448）的数据，引入多个视觉和文本生成任务，提升模型的多模态任务处理能力。
指令微调：通过人工标注、模型生成等方式构造多模态多轮会话数据，提升模型的指令遵循能力和对话能力。

应用场景

Qwen VLo适用于多种场景，包括但不限于：

图像编辑与风格迁移：用户可以通过自然语言指令要求模型对图像进行风格转换、场景重构或细节修饰。
创意设计：如海报设计、插图创作、网页Banner制作、社交媒体封面设计等。Qwen VLo能够根据用户的需求生成适配不同场景的图像内容。
长段落文字生成任务：如广告设计、漫画分镜创作等。Qwen VLo的渐进式生成机制让用户可以实时观察生成过程，并根据需要进行调整。

体验方式

用户可以通过Qwen Chat（chat.qwen.ai）进行Qwen VLo的体验。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。