全新PyTorch 2.8登场:LLM推理量化性能大跃进,Intel GPU兼容性升级!
发布时间:2025-08-08 17:52:37 | 责任编辑:吴昊 | 浏览量:7 次
近日,开源机器学习框架 PyTorch 迎来了全新版本2.8的正式发布。这一版本的发布备受关注,主要集中在提升量化大语言模型(LLM)的推理性能,尤其是在 Intel CPU 上的表现。此次更新不仅显著增强了在离线模式下的推理效率,还首次实验性支持了 Intel GPU 的分布式后端。
在 PyTorch2.8中,开发者们通过优化算法和引入新技术,使得量化 LLM 的推理速度大幅提升。具体来说,该版本支持多种量化模式,包括 A16W8、DA8W8和 A16W4等。测试数据显示,在 Intel 的第六代 Xeon 平台上,以 M=8、K 和32核心为条件运行 Llama-3.1-8B 模型时,端到端延迟减少了20% 以上,性能甚至可与一些热门的 LLM 服务框架媲美。
此外,本次更新的另一亮点是,PyTorch2.8为 Intel 离散 GPU 引入了 XCCL 分布式后端的实验性支持。这一功能为不同的训练模式提供了更多的灵活性,开发者能够在更广泛的硬件环境中发挥模型的潜力。
除了以上核心功能的增强,PyTorch2.8还包括一系列重要的改进。例如,SYCL 支持的引入使得 PyTorch 的 C++ 扩展 API 功能更加丰富,同时 XPU 设备也新增了对 A16W4模式的支持。此外,开发团队为 libtorch ABI 提供了稳定的接口,减少了在第三方 C++/CUDA 扩展中的兼容性问题。
针对 ROCm 的支持也得到了增强,增加了对 gfx950架构的支持,并结合 TorchInductor 和 AOTInductor,提供了多个内核的自动调优模板。此外,控制流操作的引入,如条件判断、循环等,使得模型的编译和导出变得更加高效。
PyTorch2.8的发布无疑为机器学习领域带来了更多可能性,也为开发者提供了更强大的工具,推动了大语言模型的应用和发展。
下载地址:https://github.com/pytorch/pytorch/releases/tag/v2.8.0
PyTorch 2.8 正式发布,亮点如下:
-
Intel CPU 量化 LLM 推理性能提升:新增高性能量化 LLM 推理支持(如 A16W8、DA8W8、A16W4 模式),在单 x86_64 CPU 设备上,PyTorch 原生栈的推理性能可达到甚至超过 vLLM 等流行框架的离线模式水平。
-
Intel GPU 支持增强:
-
实验性支持 Intel XCCL GPU 分布式后端,支持 DDP、FSDP、PP 和 TP 等分布式训练范式。
-
支持 Intel GPU 上的 A16W4 权重量化推理,可显著降低内存占用并提升推理速度,支持 BF16 和 FP16 激活及 RTN 或 AWQ 量化方法。
-
-
其他更新:提供有限的稳定 libtorch ABI、平台依赖 wheel 机制(实验性),以及 ROCm 7 架构支持等。
建议查阅 PyTorch 2.8 发布博客 或 GitHub 发布页面 了解更多详情。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。