首页 > 快讯 > 发布全新 GoT-R1 多模态模型：开启更智能的AI绘画，引领图像生成新时代！

发布全新 GoT-R1 多模态模型：开启更智能的AI绘画，引领图像生成新时代！

发布时间：2025-06-26 12:46:18 | 责任编辑：张毅 | 浏览量：331 次

近日，来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习（RL），在视觉生成任务中显著提升了 AI 的语义和空间推理能力，成功应对复杂的文本提示生成高保真、语义一致的图像。这一进展标志着图像生成技术的又一次飞跃。
目前，尽管现有的多模态大模型在根据文本提示生成图像方面已有显著进展，但在处理涉及精准空间关系和复杂组合的指令时，仍面临诸多挑战。GoT-R1正是为了解决这一问题而诞生的。与其前身 GoT 相比，GoT-R1不仅扩展了 AI 的推理能力，更赋予了它自主学习和优化推理策略的能力。
GoT-R1的核心在于其强化学习机制。团队通过设计一套全面有效的奖励机制，帮助模型在生成图像时更好地理解用户的复杂指令。这一机制涵盖了多个评估维度，包括生成图像的语义一致性、空间布局准确性和整体美学质量。更重要的是，GoT-R1还通过将推理过程可视化，使得模型能够更准确地评估图像生成的效果。
在经过全面的评估后，研究团队发现，GoT-R1在一项名为 T2I-CompBench 的基准测试中表现出色，尤其在处理复杂多层次指令时，展现了超越其他主流模型的能力。例如，在 “复杂” 基准测试中，GoT-R1的表现尤为突出，其强大的推理和生成能力使得这一模型在多个评估类别中取得了最高分。
GoT-R1的发布为多模态图像生成技术注入了新的活力，展现了 AI 在处理复杂任务时的无限可能性。随着技术的不断发展，未来的图像生成将会更加智能化和精准化。
论文:https://arxiv.org/pdf/2503.10639

全新 GoT-R1 多模态模型由香港大学 MMLab、香港中文大学 MMLab 和商汤科技的研究团队发布，其引入强化学习，显著增强了多模态大模型在视觉生成任务中的语义 - 空间推理能力，让 AI 画图更聪明，开启了图像生成的新纪元。

技术突破

强化学习的应用：GoT-R1 创新性地将强化学习应用于视觉生成的语义 - 空间推理过程，突破了以往依赖人工定义模板的监督微调数据的局限，使模型能够自主探索和学习更优的推理策略。
双阶段、多维度奖励框架：GoT-R1 构建了基于 MLLM 的双阶段、多维度奖励框架，包括推理过程评估奖励、推理至图像对齐奖励和文本提示至图像对齐奖励，从语义对齐、空间对齐等多个维度对生成结果进行评估和监督。

性能提升

复杂场景生成能力显著增强：在极具挑战性的 T2I-CompBench 基准测试中，GoT-R1-7B 模型确立了新的 SOTA 性能，在色彩、形状、纹理等六个评估类别中的五个取得了最高分，尤其在复杂组合基准测试中展现出显著优势。
推理能力大幅提升：与仅使用 GoT 数据集进行监督微调的基线模型相比，经过强化学习优化的 GoT-R1-7B 模型在评估指标上实现了高达 15% 的提升，证明了强化学习引导模型自主优化推理路径的有效性。

开源与应用前景

GoT 和 GoT-R1 已全面开源，这将有助于推动多模态大模型在图像生成领域的进一步发展，为相关研究和应用提供了强大的技术支持和创新思路。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。