首页 > 快讯 > 英伟达携手MIT与香港大学推出Fast-dLLM框架，实现令人瞩目的推理速度提升

英伟达携手MIT与香港大学推出Fast-dLLM框架，实现令人瞩目的推理速度提升

发布时间：2025-06-03 14:52:53 | 责任编辑：吴昊 | 浏览量：146 次

在最近的科技进展中，英伟达与麻省理工学院（MIT）和香港大学联合推出了名为 Fast-dLLM 的新框架，显著提升了扩散模型(Diffusion-based LLMs)的推理速度，最高可达27.6倍。这一创新的成果为语言模型的应用开辟了新天地。
扩散模型被视为自回归模型的有力竞争者，采用了双向注意力机制，使其在理论上能够实现多词元同步生成，从而加快解码速度。然而，实际应用中，扩散模型在推理速度上却常常无法与自回归模型相媲美，因为每一次生成都需要重复计算所有注意力状态，这使得计算成本居高不下。此外，在进行多词元解码时，词元之间的依赖关系易被破坏，影响生成质量，导致其在实际应用中受到限制。
为了克服这些瓶颈，英伟达的研发团队在 Fast-dLLM 框架中引入了两项核心创新:块状近似 KV 缓存机制和置信度感知并行解码策略。KV 缓存通过将序列划分为块，预计算并存储其他块的激活值，减少了计算冗余;而其 DualCache 版本更是进一步提升了效率，利用相邻推理步骤的高相似性来缓存前后缀词元。
同时，置信度解码策略则根据设定的阈值选择性解码高置信度的词元，从而避免了同步采样可能带来的依赖冲突，确保生成质量不受影响。
Fast-dLLM 在多项基准测试中表现出色。在 GSM8K 数据集上，该框架在生成长度为1024词元时，8-shot 配置下实现了惊人的27.6倍加速，并达到了76.0% 的准确率;在 MATH 基准测试中，其加速倍数为6.5倍，准确率约为39.3%;而在 HumanEval 和 MBPP 测试中，分别实现了3.2倍和7.8倍的加速，准确率保持在54.3% 和接近基线水平。
Fast-dLLM 在加速的同时，准确率仅下降了1-2个百分点，展示了其在速度与质量之间的良好平衡。这一研究成果为扩散模型在实际语言生成任务中的应用提供了更为强大的支持，使其有能力与自回归模型进行竞争，为未来的广泛应用奠定了坚实基础。

英伟达（NVIDIA）、麻省理工学院（MIT）和香港大学联合推出了Fast-dLLM框架，该框架显著提升了扩散大语言模型（Diffusion-based LLMs）的推理速度，最高可达27.6倍。这一创新框架通过分块KV缓存和置信度感知并行解码技术，在保持生成质量稳定性的同时，大幅提升了推理效率。

核心技术

分块KV缓存（Block-Wise KV Cache）：该技术通过将序列分块，并在生成每个块之前计算并存储其他块的KV激活值，从而在后续解码步骤中复用这些值，减少计算冗余。此外，DualCache版本进一步扩展了这一方法，通过缓存前缀和后缀token，利用相邻推理步骤之间的高相似性，进一步提升效率。
置信度感知并行解码：系统会评估每个token的置信度，并仅解码那些置信度超过设定阈值的token，从而防止因同时采样而导致的依赖性冲突，确保高质量的生成。

性能表现

在LLaDA模型上，针对1024 token的长文本生成任务，Fast-dLLM将单步延迟从0.26秒降至0.09秒，整体耗时从266秒压缩至12秒，实现了27.6倍的端到端加速。
在主流基准测试中，Fast-dLLM的准确率损失控制在2%以内，例如在GSM8K（5-shot）任务中，LLaDA+Fast-dLLM的准确率为78.5%，仅比基线低0.8%，但吞吐量提升了8.1倍。

应用价值

Fast-dLLM的零训练成本特性使其成为理想的推理优化工具，能够快速集成到现有的系统中。对于已经在使用扩散模型的企业和开发者来说，可以在不改变模型架构和训练流程的基础上，直接利用Fast-dLLM提升推理效率，缩短长文本生成耗时，为实际部署提供更可行的方案。

总结与展望

Fast-dLLM通过分块KV缓存与置信度感知并行解码的创新组合，实现了扩散模型推理效率的跨越式提升，同时保持了生成质量的稳定性。其技术设计为非自回归生成模型提供了新的优化范式，有望推动扩散模型在实时交互、长文本生成等场景中的广泛应用。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。