首页 > 快讯 > 英伟达联手MIT推出 Fast-dLLM 架构，增强AI推理速度27.6倍

英伟达联手MIT推出 Fast-dLLM 架构，增强AI推理速度27.6倍

发布时间：2025-06-03 14:20:27 | 责任编辑：张毅 | 浏览量：266 次

近日，科技巨头英伟达联合麻省理工学院（MIT）与香港大学，发布了名为 Fast-dLLM 的新框架。这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度，最高可达27.6倍，为人工智能的应用提供了更为强大的技术支持。
扩散模型的挑战与机遇
扩散模型被视为传统自回归模型（Autoregressive Models）的有力竞争者。它采用双向注意力机制(Bidirectional Attention Mechanisms)，理论上能够通过同步生成多个词元(Multi-token Generation)来加速解码过程。然而，在实际应用中，扩散模型的推理速度常常不及自回归模型，主要由于每次生成步骤都需重新计算全部注意力状态，导致计算成本过高。此外，多词元同步解码时，词元间的依赖关系容易被破坏，从而影响生成质量。
Fast-dLLM 框架的创新
为了解决上述问题，英伟达团队研发了 Fast-dLLM 框架，引入了两项重要创新:块状近似 KV 缓存机制和置信度感知并行解码策略。
1. ** 块状近似 KV 缓存机制 **:该机制通过将序列划分为多个块（Blocks），预先计算并存储各块的激活值(KV Activations)，在后续解码中重复利用。这种方式显著减少了计算冗余，提升了效率。其 DualCache 版本进一步缓存前后缀词元(Prefix and Suffix Tokens)，利用相邻推理步骤的高度相似性来提升处理速度。
2. ** 置信度感知并行解码策略 **:该策略根据设定的阈值（Confidence Threshold），选择性地解码高置信度的词元，避免同步采样带来的依赖冲突，从而确保生成质量。
卓越的性能表现
Fast-dLLM 在多项基准测试中表现出色。在 GSM8K 数据集上，生成长度为1024词元时，其8-shot 配置实现了27.6倍的速度提升，准确率达76.0%;在 MATH 基准测试中，加速倍数为6.5倍，准确率约为39.3%;在 HumanEval 和 MBPP 测试中，分别实现了3.2倍和7.8倍的加速，准确率维持在54.3% 和基线水平附近。总体来看，Fast-dLLM 在提升速度的同时，准确率仅下降1-2个百分点，有效平衡了速度与质量。
通过解决推理效率和解码质量的问题，Fast-dLLM 使扩散模型在实际语言生成任务中具备了与自回归模型竞争的实力，为未来更广泛的应用奠定了基础。随着这一技术的推广，我们有望看到人工智能在更多领域的实际应用。
项目:https://nvlabs.github.io/Fast-dLLM/

英伟达联合麻省理工学院（MIT）和香港大学推出了名为 Fast-dLLM 的框架，显著提升了 AI 扩散模型（Diffusion-based LLMs）的推理速度，最高可达 27.6 倍。

技术创新

Fast-dLLM 框架通过以下两大创新实现推理加速：

块状近似 KV 缓存机制：将序列划分为多个块，预计算并存储各块的激活值（KV Activations），在后续解码中重复利用，显著减少计算冗余。其 DualCache 版本进一步缓存前后缀词元，利用相邻推理步骤的高相似性提升效率。
置信度感知并行解码策略：根据设定的置信度阈值，选择性解码高置信度的词元，避免同步采样带来的依赖冲突，确保生成质量。

性能表现

Fast-dLLM 在多项基准测试中展现了出色的表现：

在 GSM8K 数据集上，生成长度为 1024 词元时，8-shot 配置下实现了 27.6 倍加速，准确率达 76.0%。
在 MATH 基准测试中，加速倍数为 6.5 倍，准确率约为 39.3%。
在 HumanEval 和 MBPP 测试中，分别实现了 3.2 倍和 7.8 倍加速，准确率维持在 54.3% 和基线水平附近。

总体来看，Fast-dLLM 在提升速度的同时，准确率仅下降 1-2 个百分点，有效平衡了速度与质量。

意义与展望

通过解决推理效率和解码质量问题，Fast-dLLM 使扩散模型在实际语言生成任务中具备了与自回归模型竞争的实力，为未来更广泛的应用奠定了基础。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。