首页 > 快讯 > UCLA 和 Meta AI 携手推出 d1 框架,显著加速 AI 推理性能

UCLA 和 Meta AI 携手推出 d1 框架,显著加速 AI 推理性能

发布时间:2025-04-29 11:07:51 | 责任编辑:吴昊 | 浏览量:9 次

在人工智能领域,UCLA 和 Meta AI 的研究人员联合推出了一种名为 d1的新框架,该框架通过强化学习技术显著提升了扩散式大语言模型(dLLMs)的推理能力。虽然传统的自回归模型如 GPT 受到了广泛关注,但 dLLMs 凭借其独特的优势,若能加强推理能力,将为企业带来新的效率和应用前景。
扩散式语言模型与自回归模型的生成方式截然不同。自回归模型如 GPT-4o 是通过逐个预测后续词元生成文本。而扩散式语言模型最初应用于图像生成,例如 DALL-E2和 Midjourney,其核心思想是逐步向图像添加噪声,直到完全变为静态,然后训练模型从噪声中逐步重构出清晰的图像。将这一概念转化为语言模型并不容易,因为文本是离散的单位。研究人员通过开发遮蔽扩散语言模型,解决了这一难题。这种模型在输入文本中随机遮蔽掉部分词元,并训练模型预测原始词元,从而实现 “粗到细” 的生成过程,允许模型在每一步同时考虑整个上下文。
尽管 dLLMs 在计算效率上具备优势,但在推理能力方面仍落后于自回归模型。为此,强化学习成为教会大语言模型复杂推理技能的重要手段。研究人员提出的 d1框架包含两个阶段的后期训练过程:首先是监督微调(SFT),使用高质量推理示例的数据集对模型进行微调;其次是采用名为 diffu-GRPO 的新算法进行强化学习训练。这一算法为 dLLMs 估计对数概率提供了一种高效方法,并在每次更新步骤中随机遮蔽部分输入提示,从而增强模型的学习效果。
研究人员在 LLaDA-8B-Instruct 模型上应用了 d1框架,通过 s1k 推理数据集进行微调,并在多个推理基准上进行测试。结果显示,经过 d1处理的模型在各项任务中表现出色,尤其是在生成较长的响应时,模型显示出自我修正和回溯的能力,表明其具备更强的解决问题的策略。
在企业应用方面,d1框架的引入将为各种数字工作流程提供加速与自动化的可能性。企业在选择自回归模型与扩散式模型时,可以根据自身在延迟或成本上的限制来决定,而 d1风格的扩散式模型在质量、速度和成本等方面具备更大的优势。
论文:https://arxiv.org/abs/2504.12216
划重点:
🌟 d1框架结合强化学习技术,显著提升扩散式大语言模型的推理能力。
⚡ dLLMs 采用遮蔽生成方法,能更高效地处理上下文信息,降低延迟。
🚀 d1在多项推理基准测试中表现优异,展现出自我修正能力,适用于企业各种数字工作流程。

UCLA 和 Meta AI 携手推出 d1 框架,显著加速 AI 推理性能

UCLA 和 Meta AI 联合推出的 d1 框架是一种创新的两阶段后训练框架,旨在显著提升扩散式大语言模型(dLLMs)的推理能力。

d1 框架的核心技术

  • 两阶段训练策略

    • 第一阶段:监督微调(SFT):使用高质量推理示例的数据集对模型进行微调,帮助模型掌握基础知识和逻辑推理能力。

    • 第二阶段:强化学习(RL):引入名为 diffu-GRPO 的新算法,这是一种为掩码 dLLM 量身定制的策略梯度方法,能够有效提升推理效率。

  • 高效对数概率估计器:为解决 dLLMs 在强化学习后训练中的计算难题,研究团队开发了一种高效的对数概率估计器,通过独立计算每个 token 的概率,大幅减少了计算时间。

d1 框架的优势

  • 推理能力显著提升:实验结果显示,经过 d1 处理的模型在多项推理基准测试中表现优异,尤其是在生成较长响应时,展现出自我修正和回溯的能力。

  • 计算效率更高:dLLMs 采用遮蔽生成方法,能够更高效地处理上下文信息,降低延迟。

  • 适用性广泛:d1 框架适用于各种数字工作流程,为企业提供了更高效、低成本的 AI 解决方案。

实验结果

研究人员在 LLaDA-8B-Instruct 模型上应用了 d1 框架,并在多个推理基准上进行测试。结果显示,d1-LLaDA 模型在 12 个实验设置中有 11 项优于仅使用 diffu-GRPO 的方案,表明两个训练阶段存在协同效应。

d1 框架的推出为扩散模型在推理任务中的应用开辟了新的可能性,未来有望在更多领域发挥重要作用。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复