首页 > 快讯 > 全新PyTorch 2.8登场：LLM推理量化性能大跃进，Intel GPU兼容性升级！

全新PyTorch 2.8登场：LLM推理量化性能大跃进，Intel GPU兼容性升级！

发布时间：2025-08-08 17:52:37 | 责任编辑：吴昊 | 浏览量：118 次

近日，开源机器学习框架 PyTorch 迎来了全新版本2.8的正式发布。这一版本的发布备受关注，主要集中在提升量化大语言模型（LLM）的推理性能，尤其是在 Intel CPU 上的表现。此次更新不仅显著增强了在离线模式下的推理效率，还首次实验性支持了 Intel GPU 的分布式后端。
在 PyTorch2.8中，开发者们通过优化算法和引入新技术，使得量化 LLM 的推理速度大幅提升。具体来说，该版本支持多种量化模式，包括 A16W8、DA8W8和 A16W4等。测试数据显示，在 Intel 的第六代 Xeon 平台上，以 M=8、K 和32核心为条件运行 Llama-3.1-8B 模型时，端到端延迟减少了20% 以上，性能甚至可与一些热门的 LLM 服务框架媲美。
此外，本次更新的另一亮点是，PyTorch2.8为 Intel 离散 GPU 引入了 XCCL 分布式后端的实验性支持。这一功能为不同的训练模式提供了更多的灵活性，开发者能够在更广泛的硬件环境中发挥模型的潜力。
除了以上核心功能的增强，PyTorch2.8还包括一系列重要的改进。例如，SYCL 支持的引入使得 PyTorch 的 C++ 扩展 API 功能更加丰富，同时 XPU 设备也新增了对 A16W4模式的支持。此外，开发团队为 libtorch ABI 提供了稳定的接口，减少了在第三方 C++/CUDA 扩展中的兼容性问题。
针对 ROCm 的支持也得到了增强，增加了对 gfx950架构的支持，并结合 TorchInductor 和 AOTInductor，提供了多个内核的自动调优模板。此外，控制流操作的引入，如条件判断、循环等，使得模型的编译和导出变得更加高效。
PyTorch2.8的发布无疑为机器学习领域带来了更多可能性，也为开发者提供了更强大的工具，推动了大语言模型的应用和发展。
下载地址：https://github.com/pytorch/pytorch/releases/tag/v2.8.0

PyTorch 2.8 正式发布，亮点如下：

Intel CPU 量化 LLM 推理性能提升：新增高性能量化 LLM 推理支持（如 A16W8、DA8W8、A16W4 模式），在单 x86_64 CPU 设备上，PyTorch 原生栈的推理性能可达到甚至超过 vLLM 等流行框架的离线模式水平。
Intel GPU 支持增强：
- 实验性支持 Intel XCCL GPU 分布式后端，支持 DDP、FSDP、PP 和 TP 等分布式训练范式。
- 支持 Intel GPU 上的 A16W4 权重量化推理，可显著降低内存占用并提升推理速度，支持 BF16 和 FP16 激活及 RTN 或 AWQ 量化方法。
其他更新：提供有限的稳定 libtorch ABI、平台依赖 wheel 机制（实验性），以及 ROCm 7 架构支持等。

建议查阅 PyTorch 2.8 发布博客或 GitHub 发布页面了解更多详情。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。