首页 > 快讯 > AMD MI300X跑满血DeepSeekR1,性能全面超H200?
DeepSeek
AMD MI300X跑满血DeepSeekR1,性能全面超H200?
发布时间:2025-03-26 08:54:27 | 责任编辑:字母汇 | 浏览量:58 次
《AMD MI300X跑满血DeepSeekR1,性能全面超H200?》相关软件官网

根据最新的测试结果,AMD MI300X 在运行 DeepSeek-R1(FP8精度)时,性能确实全面超越了 NVIDIA H200,尤其是在高并发场景下表现尤为突出。以下是关键数据对比:
1. 吞吐量 & 延迟表现
- 吞吐量:在相同延迟下,MI300X 的吞吐量可达 H200 的5倍,最高超过 每秒7000 Tokens。
- 延迟:在 128并发请求 下,MI300X 的 Token间延迟不超过50ms,而 H200 仅能处理 16并发请求 时保持相近延迟。
- 固定并发对比:相同并发数下,MI300X 的吞吐量比 H200 高 75%,延迟降低 60%。
2. 关键优化技术
- SGLang框架:由 LMSYS 开发的开源大模型推理框架,在 MI300X 上运行 DeepSeek-R1 时,仅两周内性能提升 4倍,吞吐量达 5921 Tokens/s1。
- AITER(AMD AI张量引擎):优化后的 ROCm AI 内核库,使 GEMM 性能提升2倍、MoE 性能提升3倍、MLA解码提升17倍,开启后 DeepSeek-V3 吞吐量翻倍。
- 超参数调整:提高
chunked_prefill_size
参数,牺牲部分内存换取预填充加速,充分利用 MI300X 的大内存优势。
3. 第三方测试支持
- Tensorwave 测试(2024年6月):在 Mixtral 8x7B 模型推理中,MI300X 比 H100 快 3倍,离线性能提升 194%,在线请求处理能力提升 33%。
- Chips and Cheese 测试:在 Llama 2 70B 推理任务中,MI300X 比 H100 快 20%(1v1)至 60%(8v8 服务器)。
4. 与 H200 的对比
- 内存带宽:MI300X 的 192GB HBM3 远超 H200 的 141GB HBM3E,带宽优势明显。
- FP8/FP16 算力:MI300X 的 FP8 算力比 H100 高 1.3倍,推测同样优于 H200。
- 软件生态:尽管早期评测(2024年底)指出 AMD 软件生态仍落后于 NVIDIA,但 2025年3月的最新优化(如 SGLang + AITER)已大幅改善体验,使其在特定框架下超越 H200。
5. 行业评价
- 黑客 George Hotz 曾预测 “只要软件优化到位,MI300X 能超越 H100”,而最新测试显示其甚至超越了 H200。
- 有评论认为 “AMD 的性价比优势可能改变市场格局”,尤其在 高吞吐、低延迟的大模型推理场景。
结论
AMD MI300X 在 DeepSeek-R1 推理任务 中确实展现出对 NVIDIA H200 的全面超越,尤其是在 高并发、低延迟、大吞吐场景 下优势显著。不过,其表现高度依赖 SGLang 和 AITER 优化,若使用其他框架(如未优化的 vLLM),性能可能仍有差距。未来,若 AMD 持续完善 ROCm 生态,或进一步挑战 NVIDIA 的 AI 计算主导地位。
©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。