首页 > 快讯 > AMD MI300X跑满血DeepSeekR1,性能全面超H200?

AMD MI300X跑满血DeepSeekR1,性能全面超H200?

发布时间:2025-03-26 08:54:27 | 责任编辑:字母汇 | 浏览量:58 次

《AMD MI300X跑满血DeepSeekR1,性能全面超H200?》相关软件官网

DeepSeek

根据最新的测试结果,AMD MI300X 在运行 DeepSeek-R1(FP8精度)时,性能确实全面超越了 NVIDIA H200,尤其是在高并发场景下表现尤为突出。以下是关键数据对比:

1. 吞吐量 & 延迟表现

  • 吞吐量:在相同延迟下,MI300X 的吞吐量可达 H200 的5倍,最高超过 每秒7000 Tokens
  • 延迟:在 128并发请求 下,MI300X 的 Token间延迟不超过50ms,而 H200 仅能处理 16并发请求 时保持相近延迟。
  • 固定并发对比:相同并发数下,MI300X 的吞吐量比 H200 高 75%,延迟降低 60%

2. 关键优化技术

  • SGLang框架:由 LMSYS 开发的开源大模型推理框架,在 MI300X 上运行 DeepSeek-R1 时,仅两周内性能提升 4倍,吞吐量达 5921 Tokens/s1
  • AITER(AMD AI张量引擎):优化后的 ROCm AI 内核库,使 GEMM 性能提升2倍、MoE 性能提升3倍、MLA解码提升17倍,开启后 DeepSeek-V3 吞吐量翻倍。
  • 超参数调整:提高 chunked_prefill_size 参数,牺牲部分内存换取预填充加速,充分利用 MI300X 的大内存优势。

3. 第三方测试支持

  • Tensorwave 测试(2024年6月):在 Mixtral 8x7B 模型推理中,MI300X 比 H100 快 3倍,离线性能提升 194%,在线请求处理能力提升 33%
  • Chips and Cheese 测试:在 Llama 2 70B 推理任务中,MI300X 比 H100 快 20%(1v1)至 60%(8v8 服务器)。

4. 与 H200 的对比

  • 内存带宽:MI300X 的 192GB HBM3 远超 H200 的 141GB HBM3E,带宽优势明显。
  • FP8/FP16 算力:MI300X 的 FP8 算力比 H100 高 1.3倍,推测同样优于 H200。
  • 软件生态:尽管早期评测(2024年底)指出 AMD 软件生态仍落后于 NVIDIA,但 2025年3月的最新优化(如 SGLang + AITER)已大幅改善体验,使其在特定框架下超越 H200。

5. 行业评价

  • 黑客 George Hotz 曾预测 “只要软件优化到位,MI300X 能超越 H100”,而最新测试显示其甚至超越了 H200。
  • 有评论认为 “AMD 的性价比优势可能改变市场格局”,尤其在 高吞吐、低延迟的大模型推理场景

结论

AMD MI300X 在 DeepSeek-R1 推理任务 中确实展现出对 NVIDIA H200 的全面超越,尤其是在 高并发、低延迟、大吞吐场景 下优势显著。不过,其表现高度依赖 SGLang 和 AITER 优化,若使用其他框架(如未优化的 vLLM),性能可能仍有差距。未来,若 AMD 持续完善 ROCm 生态,或进一步挑战 NVIDIA 的 AI 计算主导地位。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具