首页 > 快讯 > d1新框架推动扩散模型推理提升,引领强化学习应用革新潮流

d1新框架推动扩散模型推理提升,引领强化学习应用革新潮流

发布时间:2025-04-21 12:50:28 | 责任编辑:吴昊 | 浏览量:65 次

在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。
这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型(dLLM)的性能。在第一阶段,模型通过高质量的推理轨迹进行监督微调,从而掌握基础知识和逻辑推理能力。接着,在第二阶段,研究者们引入了一种名为 diffu-GRPO 的新型策略梯度方法,这一方法专门针对掩码 dLLM 进行了优化,大幅提高了推理效率。
与以往的研究相比,d1的提出旨在解决扩散模型在强化学习后训练中的挑战。传统的自回归模型通过对生成序列的对数概率进行计算,从而优化模型的输出,而 dLLM 则因其迭代生成的特性,面临计算上的困难。为此,研究团队开发了一种高效的对数概率估计器,通过独立计算每个 token 的概率,极大地减少了计算时间并提高了训练效率。
在实验中,研究者使用 LLaDA-8B-Instruct 作为基础模型,比较了 d1-LLaDA 与仅使用 SFT 或 diffu-GRPO 训练的模型。结果显示,d1-LLaDA 在多个数学和逻辑推理测试中表现优异,远超基础模型和单一方法。这一组合式的方法不仅增强了模型的推理能力,还展示了良好的协同效应。
随着 d1框架的推出,扩散模型在推理任务中的表现将迎来新的提升,也为后续的研究提供了广阔的空间。研究者们相信,这一创新的框架将推动语言模型的进一步发展,助力更复杂的推理和逻辑任务的实现。
项目地址:https://top.aibase.com/tool/d1

d1新框架推动扩散模型推理提升,引领强化学习应用革新潮流

d1框架引领扩散模型推理进步

d1框架由加州大学洛杉矶分校(UCLA)和Meta的研究者联合推出,是一个结合了监督微调(SFT)和强化学习(RL)的两阶段后训练框架,专门用于提升掩码扩散大语言模型(dLLM)的推理能力。

创新设计

  • 两阶段训练策略:第一阶段通过高质量的推理轨迹进行监督微调,使模型掌握基础知识和逻辑推理能力;第二阶段引入名为diffu-GRPO的新型策略梯度方法,专门针对掩码dLLM优化,大幅提高推理效率。

  • 高效对数概率估计器:为解决dLLM在强化学习后训练中的计算难题,研究团队开发了一种高效的对数概率估计器,通过独立计算每个token的概率,减少了计算时间并提高了训练效率。

实验结果

  • 在实验中,研究者使用LLaDA-8B-Instruct作为基础模型,比较了d1-LLaDA与仅使用SFT或diffu-GRPO训练的模型。结果显示,d1-LLaDA在多个数学和逻辑推理测试中表现优异,远超基础模型和单一方法。

  • d1训练方案在12个实验设置中有11项优于纯diffu-GRPO方案,表明两个训练阶段存在协同效应。

  • 定性结果显示,d1-LLaDA模型在生成序列长度达到512时,展现出自我修正机制和回溯行为。

引发强化学习应用新风潮

d1框架的提出不仅推动了扩散模型在推理任务中的表现,还为强化学习在非自回归模型中的应用提供了新思路。

  • 非自回归模型的推理潜力:传统的自回归模型在强化学习后训练中占据主导地位,而d1框架证明了非自回归的扩散模型在推理任务中同样具有巨大潜力。

  • 高效训练方法的推广:d1框架中提出的高效对数概率估计器和diffu-GRPO方法,为其他非自回归模型的强化学习训练提供了可借鉴的技术。

  • 未来研究方向的拓展:d1框架的成功为后续研究提供了广阔空间,研究者们可以在此基础上探索更复杂的推理和逻辑任务,进一步推动语言模型的发展。

总结

d1框架通过创新的两阶段训练策略和高效的对数概率估计器,显著提升了扩散模型的推理能力,并为强化学习在非自回归模型中的应用开辟了新道路。这一成果不仅推动了扩散模型的发展,也为未来人工智能领域的研究提供了新的方向。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复