首页 > 快讯 > 问世首款纯AMD驱动的MoE巨型模型ZAYA1：配以14T tokens和CCA注意机制，效能直追Qwen3

问世首款纯AMD驱动的MoE巨型模型ZAYA1：配以14T tokens和CCA注意机制，效能直追Qwen3

发布时间：2025-11-25 15:55:39 | 责任编辑：张毅 | 浏览量：96 次

AMD携手IBM与AI初创Zyphra发布ZAYA1——全球首个全程基于AMD硬件训练的MoE基础模型，预训练14T tokens，综合性能与Qwen3系列持平，数学/STEM推理未经指令微调即可逼近Qwen3专业版。
训练规模
- 集群:IBM Cloud128节点×8张AMD Instinct MI300X，共1024卡;InfinityFabric+ROCm，峰值750PFLOPs
- 数据:14T tokens，课程学习由通用网页→数学/代码/推理;后训练版本将另行发布
架构创新
1. CCA注意力:卷积+压缩嵌入注意力头，显存占用↓32%，长上下文吞吐↑18%
2. 线性路由MoE:专家粒度细化+负载均衡正则，Top-2路由精度提升2.3pp，稀疏度达70%时仍保持高利用率
基准成绩
ZAYA1-Base（非指令版）在MMLU-Redux、GSM-8K、MATH、ScienceQA等基准与Qwen3-Base打平;CMATH与OCW-Math显著超越，验证STEM潜力。Zyphra透露，指令与RLHF版本将于2026Q1推出，并开放API与权重下载。
AMD表示，此次合作验证MI300X+ROCm在大规模MoE训练中的可行性，未来将与更多云厂商复制“纯AMD”集群方案，目标2026年训练>100B参数的MoE模型时实现与NVIDIA方案TCO持平。

这是一篇关于全球首个“纯AMD”训练MoE大模型ZAYA1 发布：14T tokens+CCA注意力，性能对标Qwen3的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。