创新MixGRPO方案:混元开源Ứ提升训练效率、优化性能
发布时间:2025-08-04 12:40:38 | 责任编辑:吴昊 | 浏览量:9 次
近日,腾讯的混元基础模型团队发布了一项突破性的图像生成新框架 MixGRPO。这一方案不仅将训练时间缩短了近50%,而且在性能上表现优异,甚至推出了一个名为 MixGRPO-Flash 的变体,进一步将训练时间降低了71%。这一切,得益于他们将随机微分方程(SDE)和常微分方程(ODE)相结合的创新采样策略。
在当前的图像生成技术中,效率与质量常常是一对矛盾的存在。MixGRPO 通过引入混合采样的方法,优化了马尔可夫决策过程(MDP),使得训练效率得到了显著提升。具体而言,该框架通过限制智能体的随机探索范围,减少了优化过程中的计算开销,同时简化了模型的训练流程。
与之前的 DanceGRPO 模型相比,MixGRPO 在多个维度上都表现出显著的改善。研究团队在实验证明了,只需对特定的去噪步骤进行优化,就能够保持甚至提升性能。研究还指出,虽然 MixGRPO 在减少训练时间的同时降低了计算开销,但也需要高阶求解器的引入,以加速旧策略模型的采样。
此外,MixGRPO 采用了滑动窗口的策略,让模型能够在去噪的过程中逐渐聚焦于更关键的时间步,从而实现了更高效的优化。这一创新使得模型在图像生成的多样性和质量上都有了不小的进步。
MixGRPO 不仅为图像生成技术的未来开辟了新的方向,也为后续研究提供了宝贵的经验和借鉴。开源代码已在文章末尾提供,期待更多开发者加入到这一激动人心的技术探索中来。
项目地址:https://tulvgengenr.github.io/MixGRPO-Project-Page/
腾讯混元基础模型团队开源了全新图像生成强化方案 MixGRPO,通过结合随机微分方程(SDE)和常微分方程(ODE),利用混合采样策略简化了马尔可夫决策过程(MDP)中的优化流程,从而在提升训练效率的同时增强了性能。MixGRPO 在人类偏好对齐的多个维度上表现显著提升,效果和效率均优于 DanceGRPO,训练时间降低近 50%。其变体 MixGRPO-Flash 进一步加速,可将训练时间降低 71%,同时保持相近性能。
MixGRPO 采用滑动窗口策略,窗口内用 SDE 采样,窗口外用 ODE 采样,利用高阶 ODE 求解器(如 DPM-Solver++)加速采样过程。实验基于 HPDv2 数据集,使用 FLUX.1 Dev 模型,仅需 9,600 条提示词训练一个 epoch 即可达到良好的人类偏好对齐效果。在多项人类偏好指标(如 HPS-v2.1、Pick Score 等)上,MixGRPO 均优于 DanceGRPO。开源代码已同步公开。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。