首页 > 快讯 > 红帽与谷歌、NVIDIA合作发起llm-d开源计划，解决大规模AI推理的高额成本与延迟挑战

红帽与谷歌、NVIDIA合作发起llm-d开源计划，解决大规模AI推理的高额成本与延迟挑战

发布时间：2025-05-27 12:17:33 | 责任编辑：张毅 | 浏览量：279 次

全球开源解决方案领导者红帽公司近日宣布启动革命性开源项目llm-d，专门应对生成式AI大规模推理的迫切需求。该项目汇聚了CoreWeave、Google Cloud、IBM Research和NVIDIA等行业巨头作为创始贡献者，旨在通过突破性技术让大语言模型推理云满足最严苛的生产服务级目标。
根据Gartner最新数据预测，"到2028年，随着市场成熟，80%以上的数据中心工作负载加速器将专门部署用于推理，而非训练用途。"这一趋势凸显了推理技术的战略重要性。
然而，随着推理模型复杂性和规模持续扩大，资源需求急剧攀升正在限制集中式推理的可行性。过高的成本和过长的延迟有可能成为AI创新发展的关键瓶颈，迫切需要新的技术解决方案。
red帽及其合作伙伴通过llm-d项目直面这一挑战，成功将先进推理能力集成到现有企业IT基础设施中。该统一平台赋能IT团队在满足关键业务工作负载各种服务需求的同时，部署创新技术以最大化效率，并显著降低高性能AI加速器的总体拥有成本。
这一解决方案的核心价值在于打破了传统推理部署的局限性，为企业提供了更加灵活、高效且经济的AI推理选择。
llm-d项目已获得由生成式AI模型提供商、AI加速器先驱和主要AI云平台组成的强大联盟支持。除了四家创始贡献者外，AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI等重要企业也作为合作伙伴加入该项目，展现了业界在构建大规模LLM服务未来方面的深度合作意愿。
Google Cloud AI与计算基础设施副总裁兼总经理Mark Lohmeyer强调:"在企业大规模部署AI并为用户创造价值的过程中，高效的AI推理至关重要。在我们进入推理新时代之际，Google Cloud很荣幸能够作为llm-d项目的创始贡献者，在我们开源贡献传统的基础上再接再厉。"
NVIDIA工程AI框架副总裁Ujval Kapasi表示:"llm-d项目是对开源AI生态系统的重要补充，体现了NVIDIA对合作推动生成式AI创新的承诺。可扩展、高性能的推理是下一波生成式AI和代理式AI的关键。我们正与红帽和其他支持合作伙伴合作，利用NIXL等NVIDIA Dynamo创新帮助加速llm-d的发展。"
llm-d项目的启动标志着AI推理领域进入新的发展阶段。通过开源模式汇聚产业智慧，该项目不仅有望解决当前大规模推理面临的成本和性能挑战，更将为整个AI生态系统的可持续发展奠定坚实基础。
随着更多企业和开发者的参与，llm-d有望成为推动AI推理技术标准化和普及化的重要力量，为即将到来的推理时代做好充分准备。

红帽公司近日宣布启动全新开源项目llm-d，该项目由红帽与CoreWeave、Google Cloud、IBM Research和NVIDIA等行业巨头共同打造，旨在破解大规模AI推理面临的成本与延迟双重难题。

项目背景与目标

随着生成式AI的发展，推理技术的战略重要性日益凸显。据Gartner预测，到2028年，80%以上的数据中心工作负载加速器将专门用于推理。然而，推理模型的复杂性和规模不断扩大，导致资源需求急剧攀升，限制了集中式推理的可行性，并可能使AI创新因成本过高和延迟过长而陷入瓶颈。llm-d项目正是为应对这一挑战而生，它致力于将先进推理能力集成到现有企业IT基础设施中，为企业提供灵活、高效且经济的AI推理选择。

项目优势

llm-d项目采用原生Kubernetes架构、基于vLLM的分布式推理和智能AI感知网络路由，具有以下创新点：

vLLM：作为开源领域的事实标准推理服务器，vLLM为新兴的前沿模型提供Day 0模型支持，并支持多种加速器，包括Google Cloud张量处理器单元（TPU）。
预填充和解码分离：将AI的输入上下文和token生成阶段分离成离散操作，然后将它们分布到多个服务器上。
键值缓存卸载：基于LMCache，将键值缓存的内存负担从GPU内存转移到更具成本效益且容量更大的标准存储，如CPU内存或网络存储。
由Kubernetes驱动的集群和控制器：在工作负载需求波动时，更高效地调度计算和存储资源，同时确保性能和较低的延迟。
AI感知网络路由：将传入请求调度到最有可能拥有过去推理计算热缓存的服务器和加速器。
高性能通信API：支持NVIDIA推理传输库（NIXL），实现服务器之间更快、更高效的数据传输。

产业联盟支持

llm-d项目获得了由生成式AI模型提供商、AI加速器先驱和主要AI云平台组成的强大联盟支持。除了四家创始贡献者外，AMD、思科、Hugging Face、英特尔、Lambda和Mistral AI等重要企业也作为合作伙伴加入该项目。这表明业界在构建大规模LLM服务的未来方面达成了深度合作意愿。

行业意义

llm-d项目的启动标志着AI推理领域进入新的发展阶段。通过开源模式汇聚产业智慧，该项目不仅有望解决当前大规模推理面临的成本和性能挑战，更将为整个AI生态系统的可持续发展奠定坚实基础。随着更多企业和开发者的参与，llm-d有望成为推动AI推理技术标准化和普及化的重要力量。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。