首页 > 快讯 > 优化Metal内核通过AI显著提升PyTorch推理效率达87%

优化Metal内核通过AI显著提升PyTorch推理效率达87%

发布时间:2025-09-05 09:05:43 | 责任编辑:张毅 | 浏览量:48 次

在苹果设备上,AI 技术正展现出惊人的潜力。根据 Gimlet Labs 的最新研究,AI 能够自动生成优化的 Metal 内核,使得 PyTorch 推理速度提升了87%。这一突破性成果不仅提高了性能,还在测试的215个 PyTorch 模块上实现了平均1.87倍的加速,某些工作负载的速度甚至提高了数百倍。
研究人员选取了来自多个顶尖机构的八个 AI 模型,包括 Anthropic、DeepSeek 和 OpenAI,利用这些模型为苹果设备生成优化的 GPU 内核。这一过程无需修改用户代码或使用新的框架,直接在苹果硬件上提升模型性能。
在实验中,研究团队选择了 Mac Studio (搭载 Apple M4Max 芯片) 进行测试,基准设置为 PyTorch 的 eager 模式。实验采用了 KernelBench 数据集中的215个 PyTorch 模块,这些模块被分为三类,涵盖从简单的矩阵乘法到完整的模型架构。
测试过程包括接收输入和 PyTorch 代码,生成 Metal 内核,并评估其正确性。数据显示,随着尝试次数的增加,AI 生成内核的正确性逐步提升。例如,在第五次尝试时,正确实现的比例达到了94%。此外,模型们在生成内核时表现出了跨层级的能力,尽管非推理模型有时也能生成有效内核。
实验结果表明,GPT-5模型在某些任务上实现了4.65倍的速度提升。更令人惊讶的是,o3模型在某些情况下甚至将延迟降低了9000倍。研究还发现,单一模型在某些任务上并不总是表现最好,多个模型的结合能够生成更优的内核。
为了进一步提升性能,研究者尝试引入额外上下文信息,如 CUDA 实现和 gputrace 的性能分析数据,结果显示这种方法在性能加速方面达到了平均1.87倍,相比于普通智能体的1.31倍提升了三倍。
需要注意的是,研究人员强调,这一工作并不是为了展示最终的性能极限,而是为了验证 AI 在内核生成中的可行性,希望通过自动化减少开发人员的负担。整体而言,这项研究标志着 AI 技术在硬件优化领域的一个重要进展。
github:https://github.com/ScalingIntelligence/KernelBench/
划重点:
🌟 AI 自动生成 Metal 内核,提升 PyTorch 推理速度87%。
⚡️ 在215个 PyTorch 模块上实现平均1.87倍的加速,部分工作负载速度提升数百倍。
🔍 研究旨在验证 AI 在内核生成的可行性,助力硬件优化。

优化Metal内核通过AI显著提升PyTorch推理效率达87%
是的,2025年9月4日多家媒体报道,Gimlet Labs把8家大模型的“写核”能力拉到Mac Studio(M4 Max)上做了一次横向评测,让AI直接生成苹果Metal内核,用来替换PyTorch eager mode里的默认GPU kernel。结果在215个KernelBench测试模块上,平均拿到1.87×加速,部分算子甚至快出两个数量级;综合下来PyTorch推理耗时整体降低约87%

关键细节如下

  1. 实验设置

    • 参测模型:Claude-4系列、GPT-4o/4.1/5、o3、DeepSeek-V3/R1等8款最新大模型

    • 硬件/软件:Apple M4 Max + macOS Metal,PyTorch eager做baseline

    • 测试集:KernelBench的三级算子/子图/完整网络共215题

  2. 生成流程

    • 给模型一段PyTorch代码 + 简短prompt,要求输出Metal kernel

    • 编译→正确性校验,失败可把报错回传模型,最多retry 5次

    • o3首次通过率约60%,第5次达到94%

  3. 性能结果

    • 单模型:GPT-5平均约1.2×,o3在个别Mamba层跑出9000+×

    • 多模型“agent swarm”:平均1.31×;再喂入CUDA参考与M4 GPU-trace后,平均1.87×,对应整体87%耗时削减

    • 最实用收益集中在Level-2多算子融合与内存访问优化

  4. 技术亮点

    • kernel fusion:把多个小kernel合并,减少调度与显存往返

    • 自动贴合M4的tile/size限制,手写汇编级细节由LLM一次性生成

    • 无需改用户代码、无需新框架,直接替换.msl文件即可

  5. 注意点

    • baseline是PyTorch eager而非生产级图编译/ONNX,所以87%属于“原型验证”幅度,落地到已充分优化的Metal backend后增益会收窄

    • 研究侧重“AI能否写出可正确、可提速的内核”,并非宣告所有场景都能再快87%

综上,Gimlet Labs用AI写Metal kernel确实在实验室条件下把PyTorch推理推快了87%,并证明多模型协作+性能反馈可显著提升自动写核成功率与效率

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐