首页 > 快讯 > AMD MI300X跑满血DeepSeekR1，性能全面超H200？

AMD MI300X跑满血DeepSeekR1，性能全面超H200？

发布时间：2025-03-26 08:54:27 | 责任编辑：字母汇 | 浏览量：435 次

《AMD MI300X跑满血DeepSeekR1，性能全面超H200？》相关软件官网

DeepSeek

根据最新的测试结果，AMD MI300X 在运行 DeepSeek-R1（FP8精度）时，性能确实全面超越了 NVIDIA H200，尤其是在高并发场景下表现尤为突出。以下是关键数据对比：

1. 吞吐量 & 延迟表现

吞吐量：在相同延迟下，MI300X 的吞吐量可达 H200 的5倍，最高超过 每秒7000 Tokens。
延迟：在 128并发请求 下，MI300X 的 Token间延迟不超过50ms，而 H200 仅能处理 16并发请求 时保持相近延迟。
固定并发对比：相同并发数下，MI300X 的吞吐量比 H200 高 75%，延迟降低 60%。

2. 关键优化技术

SGLang框架：由 LMSYS 开发的开源大模型推理框架，在 MI300X 上运行 DeepSeek-R1 时，仅两周内性能提升 4倍，吞吐量达 5921 Tokens/s1。
AITER（AMD AI张量引擎）：优化后的 ROCm AI 内核库，使 GEMM 性能提升2倍、MoE 性能提升3倍、MLA解码提升17倍，开启后 DeepSeek-V3 吞吐量翻倍。
超参数调整：提高 chunked_prefill_size 参数，牺牲部分内存换取预填充加速，充分利用 MI300X 的大内存优势。

3. 第三方测试支持

Tensorwave 测试（2024年6月）：在 Mixtral 8x7B 模型推理中，MI300X 比 H100 快 3倍，离线性能提升 194%，在线请求处理能力提升 33%。
Chips and Cheese 测试：在 Llama 2 70B 推理任务中，MI300X 比 H100 快 20%（1v1）至 60%（8v8 服务器）。

4. 与 H200 的对比

内存带宽：MI300X 的 192GB HBM3 远超 H200 的 141GB HBM3E，带宽优势明显。
FP8/FP16 算力：MI300X 的 FP8 算力比 H100 高 1.3倍，推测同样优于 H200。
软件生态：尽管早期评测（2024年底）指出 AMD 软件生态仍落后于 NVIDIA，但 2025年3月的最新优化（如 SGLang + AITER）已大幅改善体验，使其在特定框架下超越 H200。

5. 行业评价

黑客 George Hotz 曾预测 “只要软件优化到位，MI300X 能超越 H100”，而最新测试显示其甚至超越了 H200。
有评论认为 “AMD 的性价比优势可能改变市场格局”，尤其在 高吞吐、低延迟的大模型推理场景。

结论

AMD MI300X 在 DeepSeek-R1 推理任务 中确实展现出对 NVIDIA H200 的全面超越，尤其是在 高并发、低延迟、大吞吐场景 下优势显著。不过，其表现高度依赖 SGLang 和 AITER 优化，若使用其他框架（如未优化的 vLLM），性能可能仍有差距。未来，若 AMD 持续完善 ROCm 生态，或进一步挑战 NVIDIA 的 AI 计算主导地位。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：腾讯元宝上线混元T1正式版+DeepSeek V3最新版

下一篇：英伟达发布连接 AI 智能体的 AI-Q Blueprint及工具包

AMD MI300X跑满血DeepSeekR1，性能全面超H200？

1. 吞吐量 & 延迟表现

2. 关键优化技术

3. 第三方测试支持

4. 与 H200 的对比

5. 行业评价

结论

最新Ai信息

最新Ai工具

热门AI推荐