首页 > 快讯 > 蚂蚁的 dInfer 平台如何将扩散模型的推理效率提高十倍,并超越传统自回归模型

蚂蚁的 dInfer 平台如何将扩散模型的推理效率提高十倍,并超越传统自回归模型

发布时间:2025-10-15 16:37:35 | 责任编辑:张毅 | 浏览量:6 次

近日,蚂蚁集团开源了全新的 dInfer 框架,专门用于扩散大语言模型的高效推理。这一框架的推出标志着扩散模型在自然语言处理领域的应用取得了重大进展,推理速度提升至以往的10倍,并在同样模型性能下超越了传统的自回归模型。
自回归模型长期以来一直是自然语言处理的主流,生成文本的过程类似于一个严谨的学生逐字撰写,因而速度受到限制。而扩散模型则采用 “去噪” 的方式生成文本,像是在处理被噪声覆盖的图片,通过逐步去除噪声来恢复清晰的图像。这种模式具有天然的并行优势,能够一次预测多个词语,从而提高效率。
尽管扩散模型理论上具有更高的潜力,但在实际推理中,其速度问题依然显著。为了解决这一问题,蚂蚁团队在 dInfer 框架中采用了创新的设计,将推理流程分为四个模块,分别为模型接入、KV 缓存管理、扩散迭代管理和解码策略。在并行解码方面,dInfer 通过 “层级解码” 和 “信用解码” 两种新策略有效减少了生成过程中的语义冲突,提高了结果的稳定性。
在 KV 缓存方面,dInfer 提出了 “邻近 KV 缓存刷新” 策略,该策略只针对最近的上下文进行重新计算,显著降低了计算开销。通过这一系列技术创新,dInfer 在性能上表现优异。在与 Fast-dLLM 和 vLLM 框架的比较测试中,dInfer 在多个数据集上展现了卓越的推理速度和吞吐量,关闭 KV 缓存时,平均 TPS 达到了407.36,是 Fast-dLLM 的6.5倍。
dInfer 框架的推出,不仅提升了扩散模型的实用性,也为自然语言处理领域的未来发展开辟了新的方向。
项目:https://github.com/inclusionAI/dInfer
划重点:
🌟 dInfer 框架使扩散大语言模型的推理速度提升10倍,超越传统自回归模型。
🚀 采用并行解码和 KV 缓存管理技术,有效解决了扩散模型的推理速度瓶颈。
📊 实验数据显示,dInfer 在推理性能上远超其他同类框架,显示出广泛的应用潜力。

蚂蚁的 dInfer 平台如何将扩散模型的推理效率提高十倍,并超越传统自回归模型

这是一篇关于蚂蚁 dInfer 框架:扩散模型推理速度提升 10 倍,超越自回归模型的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐