英特尔推出 LLM-Scaler1.0,增强 AI 推理效能
发布时间:2025-08-12 11:03:49 | 责任编辑:张毅 | 浏览量:7 次
英特尔于2025年8月宣布了其 “战斗矩阵” 项目的最新软件更新,并推出了 LLM-Scaler1.0容器,以优化 Intel Arc B 系列显卡的 AI 推理支持。
早在今年5月,英特尔就宣布了 “战斗矩阵” 项目,旨在支持多达八块 Intel Arc Pro GPU 用于 AI 推理,并提供 SR-IOV 支持、改进的 vLLM 性能等多项新功能。英特尔的目标是在第三季度实现产品可用性,并在年末前实现全面功能。
此次发布的 LLM-Scaler1.0被描述为 “一个专为 Linux 环境构建的新容器化解决方案,优化以提供卓越的推理性能,支持多 GPU 扩展和 PCIe 点对点数据传输,并设计包括 ECC、SR-IOV、遥测及远程固件更新等企业级的可靠性和可管理性特性。” 此版本的发布还整合了新的 vLLM 性能优化、各种新 vLLM 功能,以及更好的多模态模型支持。
LLM-Scaler1.0容器还包含 oneCCL 基准支持和 XPU 管理器集成,为各种 GPU 遥测功能提供了便利。此外,其他增强功能也得到了更新。
在英特尔官网的公告中,他们提到下一步将推出更为稳固的 LLM Scaler 版本以及其他新功能,预计将在第三季度结束前完成。全面功能的发布仍按计划在第四季度进行。
划重点:
🌟 英特尔发布 LLM-Scaler1.0容器,优化 Arc B 系列显卡的 AI 推理性能。
💻 新版本支持多 GPU 扩展和 PCIe 点对点数据传输,增强了企业级可靠性特性。
📈 未来将推出更稳固版本及新功能,计划在第四季度全面发布。
英特尔今天(2025-08-12)正式推出 LLM-Scaler1.0 容器方案,主要面向 Arc B 系列显卡,通过两项关键改进显著提升大模型 AI 推理性能:
-
多 GPU 并行扩展
支持在单机多卡或多机多卡环境下弹性伸缩,充分利用 Arc B 系列显卡的算力资源。 -
PCIe 点对点高速数据通道
允许 GPU 之间直接交换张量数据,绕过系统内存,降低延迟并提高带宽利用率。
此外,LLM-Scaler1.0 还强化了企业级可靠性特性,方便在生产环境中大规模部署。英特尔表示,后续版本将继续扩展硬件支持和优化策略,进一步提升推理效率。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。