升级版开源 DeepSeek R1:推理性能激增200倍,大幅削减开销
发布时间:2025-07-04 09:09:23 | 责任编辑:张毅 | 浏览量:11 次
《升级版开源 DeepSeek R1:推理性能激增200倍,大幅削减开销》相关软件官网

近日,德国知名技术咨询公司 TNG 发布了 DeepSeek 的增强版 ——DeepSeek-TNG-R1T2-Chimera,标志着深度学习模型在推理效率和性能上的又一次重大突破。这一新版本不仅在推理效率上提升了200%,而且通过创新的 AoE 架构显著降低了推理成本。
Chimera 版本是基于 DeepSeek 的 R1-0528、R1和 V3-0324三大模型的混合开发,采用了全新的 AoE(Adaptive Expert)架构。这一架构通过对混合专家(MoE)架构的细致优化,能够高效地利用模型参数,从而提升推理性能并节省 token 输出。
在多项主流测试基准(如 MTBench、AIME-2024)中,Chimera 版本的表现优于普通 R1版本,展现出显著的推理能力和经济性。
在深入了解 AoE 架构之前,我们需要了解混合专家(MoE)架构。MoE 架构将 Transformer 的前馈层划分为多个 “专家”,每个输入标记仅会路由到部分专家。这种方法有效提高了模型的效率和性能。
例如,2023年 Mistral 推出的 Mixtral-8x7B 模型,尽管激活的参数数量仅为13亿,却能够与拥有700亿参数的 LLaMA-2-70B 模型相媲美,推理效率提高了6倍。
AoE 架构利用 MoE 的细粒度特性,允许研究者从现有的混合专家模型中构建具有特定能力的子模型。通过插值和选择性合并父模型的权重张量,生成的新模型不仅保留了优良特性,还能够根据实际需求灵活调整其性能表现。
研究者选择了 DeepSeek-V3-0324和 DeepSeek-R1作为父模型,基于不同的微调技术,使得这两个模型在推理能力和指令遵循方面都表现卓越。
在构建新的子模型过程中,研究者首先需要准备父模型的权重张量,并通过解析权重文件进行直接操作。接着,通过定义权重系数,研究者可以平滑地插值和合并父模型的特征,生成新的模型变体。
在合并过程中,研究者引入了阈值控制与差异筛选机制,确保只有在显著差异的情况下,才将相关张量纳入合并范围,从而减少模型复杂性和计算成本。
在 MoE 架构中,路由专家张量是至关重要的组成部分,它决定了输入标记在推理过程中选择的专家模块。AoE 方法特别关注这些张量的合并,研究者发现,通过优化路由专家张量,可以显著提升子模型的推理能力。
最终,通过 PyTorch 框架,研究者实现了模型的合并。合并后的权重被保存到新的权重文件中,生成了新的子模型,展现出高效性和灵活性。
开源地址: https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
以下是关于开源DeepSeek R1增强版的相关介绍:
技术原理
- 混合专家(MoE)架构:DeepSeek R1采用了混合专家架构,其拥有6710亿参数,但每个词元仅需激活370亿参数进行处理。这种架构类似于“分工合作”的团队,模型内部集成了多个“专家”子模型,每个专家专注于特定类型的数据或任务。当接收到输入时,系统会根据输入特点动态选择部分专家参与计算,而非让整个庞大网络都参与,从而大大减少了不必要的计算量,加快了模型的响应速度,也使得模型在处理复杂任务时能够调用最合适的“专家”,实现高效、精准的推理。
- 动态GPU调度机制:DeepSeek R1的推理系统引入了动态GPU调度机制,能够根据实时的推理请求负载,动态分配GPU资源。在高负载时充分利用计算资源,在低负载时减少不必要的资源浪费,这种灵活的调度策略不仅提高了系统的整体性能,还显著降低了运营成本。
- 模型压缩技术:R1推理系统采用了模型压缩技术,通过量化和剪枝等手段,将模型的大小和计算复杂度降低,从而进一步提高了推理速度,使得R1在保持高性能的同时,具备了更强的商业竞争力。
- 多阶段训练管道:DeepSeek-R1采用了包含冷启动数据和多阶段训练的管道。首先收集数千个冷启动数据来微调基础模型,然后进行推理导向强化学习,在引入语言一致性奖励后,通过对RL检查点进行拒绝采样,并结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据来创建新的SFT数据,重新训练基础模型,最后进行全场景强化学习进一步优化。
性能表现
- 推理能力:DeepSeek R1在多个推理任务上表现出色,如在AIME 2024上的Pass@1分数达到79.8%,略高于OpenAI-o1-1217;在MATH-500上获得了97.3%的分数,与OpenAI-o1-1217相当,并且显著优于其他模型。此外,在编码相关任务上,DeepSeek R1在代码竞赛任务中表现出专家水平,在Codeforces上达到2029的Elo评级,超过了比赛中96.3%的人类参与者。
- 知识基准测试:在MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek R1取得了出色的结果,分别得分为90.8%、84.0%和71.5%,虽然略低于OpenAI-o1-1217,但超过了其他闭源模型。
- 其他任务:DeepSeek R1在创意写作、一般问答、编辑、总结等广泛的任务中也表现出色。例如,在AlpacaEval 2.0上实现了87.6%的长度控制胜率,在ArenaHard上的胜率为92.3%。
成本优势
- 训练成本:DeepSeek R1的训练成本大幅降低,仅耗资600万美元、使用2000块英伟达H800图形处理器(GPU)就完成了模型训练,而GPT-4的训练成本高达8000万至1亿美元。
- 推理成本:基于R1模型的DeepSeek Reasoner每百万输入令牌成本为0.55美元,每百万输出令牌成本为2.19美元,相比OpenAI o1,成本低95%。此外,DeepSeek R1还通过动态GPU调度机制、模型压缩技术等进一步降低了推理成本。
应用场景
- 教育领域:DeepSeek R1在教育任务中具有竞争优势,如在MMLU等知识基准测试中表现出色,可以帮助学生更好地理解和掌握知识。
- 编程与工程领域:在代码竞赛和工程相关任务上,DeepSeek R1表现出专家水平,能够为开发人员提供实际帮助。
- 内容创作与问答:DeepSeek R1在创意写作、一般问答等任务中表现出色,可以用于内容创作、智能客服等领域。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。