首页 > 快讯 > 华为推出昇腾大模型：无需GPU，解答复杂数学问题仅耗时2秒！

华为推出昇腾大模型：无需GPU，解答复杂数学问题仅耗时2秒！

发布时间：2025-05-30 15:46:41 | 责任编辑：吴昊 | 浏览量：141 次

最近，华为通过其新推出的 “昇腾 + Pangu Ultra MoE” 系统展示了一个令人惊叹的突破:一个近万亿参数的 MoE 大模型在短短2秒内就能理解并解答一道高等数学题。而这一切都在没有使用 GPU 的情况下实现，显示出华为在自主可控的国产算力和模型训练方面的强大能力。
在技术层面，华为的团队成功提升了训练系统的整体性能，通过智能选择并行策略和优化计算通信，大幅提高了集群的训练效率。在其技术报告中，华为详尽披露了在 CloudMatrix384超节点上进行的多项技术创新，包括改进的通信机制和负载均衡策略。这些创新使得大规模 MoE 训练的专家并行通信开销几乎降至零，同时有效平衡了计算负载。
此外，华为在提高单节点算力方面也取得了显著成效。他们通过优化训练算子的执行，成功将微批处理规模提升至原来的两倍，同时解决了算子下发的效率问题。这种技术的进步意味着，华为的系统在面对复杂计算任务时，能够更加高效地利用现有资源。
华为的这一系列技术创新不仅让 MoE 模型的训练效率大幅提升，更为未来大规模 AI 模型的训练与应用打开了新的可能性。

华为发布的“昇腾+Pangu Ultra MoE”系统实现了在无GPU的情况下，让一个近万亿参数的MoE大模型在2秒内理解并解答高等数学题。这一成果展示了华为在自主可控的国产算力和模型训练方面的强大能力。

技术突破

训练系统性能提升：华为通过智能选择并行策略和优化计算通信，大幅提高了集群的训练效率。在CloudMatrix384超节点上，多项技术创新使得大规模MoE训练的专家并行通信开销几乎降至零，同时有效平衡了计算负载。
单节点算力优化：通过优化训练算子的执行，微批处理规模提升至原来的两倍，解决了算子下发的效率问题。
模型架构与训练方法创新：盘古团队提出Depth-Scaled Sandwich-Norm（DSSN）稳定架构和TinyInit小初始化的方法，实现了10+T tokens数据的长期稳定训练。此外，还提出了EP group loss负载优化方法，提升了专家的领域特化能力。
通信机制优化：创新设计了昇腾网络拓扑适配的分层All-to-All通信去冗余机制，结合细粒度前反向计算重叠编排，将大规模MoE训练中的专家并行通信开销降至接近零暴露。

模型架构特点

超大规模和超高稀疏比：Pangu Ultra MoE模型拥有7180亿参数量，采用256个路由专家，每个token激活8个专家。
硬件亲和设计：模型的隐藏层维度设置为7680维，精准匹配昇腾芯片的16×16 MatMul单元，充分发挥Cube核心的计算潜力。此外，模型的层数和专家规模也经过优化，以提升并行效率。

应用场景

虽然目前公开资料中未明确提及Pangu Ultra MoE模型的具体应用场景，但基于其强大的计算能力和高效的训练效率，该模型有望在以下领域发挥重要作用：

科学研究：加速数学、物理等基础科学领域的复杂问题求解，为科研人员提供更强大的工具。
教育领域：辅助教学，为学生提供个性化的学习指导，尤其是在数学等需要复杂逻辑推理的学科中。
工业应用：优化生产流程中的复杂计算任务，提高生产效率和质量控制。
金融科技：用于风险评估、投资策略分析等需要处理大量数据和复杂模型的场景。

华为的这一系列技术创新不仅让MoE模型的训练效率大幅提升，更为未来大规模AI模型的训练与应用打开了新的可能性。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。