首页 > 快讯 > 创新MixGRPO方案：混元开源Ứ提升训练效率、优化性能

创新MixGRPO方案：混元开源Ứ提升训练效率、优化性能

发布时间：2025-08-04 12:40:38 | 责任编辑：吴昊 | 浏览量：50 次

近日，腾讯的混元基础模型团队发布了一项突破性的图像生成新框架 MixGRPO。这一方案不仅将训练时间缩短了近50%，而且在性能上表现优异，甚至推出了一个名为 MixGRPO-Flash 的变体，进一步将训练时间降低了71%。这一切，得益于他们将随机微分方程（SDE）和常微分方程(ODE)相结合的创新采样策略。
在当前的图像生成技术中，效率与质量常常是一对矛盾的存在。MixGRPO 通过引入混合采样的方法，优化了马尔可夫决策过程（MDP），使得训练效率得到了显著提升。具体而言，该框架通过限制智能体的随机探索范围，减少了优化过程中的计算开销，同时简化了模型的训练流程。
与之前的 DanceGRPO 模型相比，MixGRPO 在多个维度上都表现出显著的改善。研究团队在实验证明了，只需对特定的去噪步骤进行优化，就能够保持甚至提升性能。研究还指出，虽然 MixGRPO 在减少训练时间的同时降低了计算开销，但也需要高阶求解器的引入，以加速旧策略模型的采样。
此外，MixGRPO 采用了滑动窗口的策略，让模型能够在去噪的过程中逐渐聚焦于更关键的时间步，从而实现了更高效的优化。这一创新使得模型在图像生成的多样性和质量上都有了不小的进步。
MixGRPO 不仅为图像生成技术的未来开辟了新的方向，也为后续研究提供了宝贵的经验和借鉴。开源代码已在文章末尾提供，期待更多开发者加入到这一激动人心的技术探索中来。
项目地址:https://tulvgengenr.github.io/MixGRPO-Project-Page/

腾讯混元基础模型团队开源了全新图像生成强化方案 MixGRPO，通过结合随机微分方程（SDE）和常微分方程（ODE），利用混合采样策略简化了马尔可夫决策过程（MDP）中的优化流程，从而在提升训练效率的同时增强了性能。MixGRPO 在人类偏好对齐的多个维度上表现显著提升，效果和效率均优于 DanceGRPO，训练时间降低近 50%。其变体 MixGRPO-Flash 进一步加速，可将训练时间降低 71%，同时保持相近性能。

MixGRPO 采用滑动窗口策略，窗口内用 SDE 采样，窗口外用 ODE 采样，利用高阶 ODE 求解器（如 DPM-Solver++）加速采样过程。实验基于 HPDv2 数据集，使用 FLUX.1 Dev 模型，仅需 9,600 条提示词训练一个 epoch 即可达到良好的人类偏好对齐效果。在多项人类偏好指标（如 HPS-v2.1、Pick Score 等）上，MixGRPO 均优于 DanceGRPO。开源代码已同步公开。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。