首页 > 快讯 > 升级版开源 DeepSeek R1：推理性能激增200倍，大幅削减开销

升级版开源 DeepSeek R1：推理性能激增200倍，大幅削减开销

发布时间：2025-07-04 09:09:23 | 责任编辑：张毅 | 浏览量：617 次

《升级版开源 DeepSeek R1：推理性能激增200倍，大幅削减开销》相关软件官网

近日，德国知名技术咨询公司 TNG 发布了 DeepSeek 的增强版 ——DeepSeek-TNG-R1T2-Chimera，标志着深度学习模型在推理效率和性能上的又一次重大突破。这一新版本不仅在推理效率上提升了200%，而且通过创新的 AoE 架构显著降低了推理成本。
Chimera 版本是基于 DeepSeek 的 R1-0528、R1和 V3-0324三大模型的混合开发，采用了全新的 AoE（Adaptive Expert）架构。这一架构通过对混合专家(MoE)架构的细致优化，能够高效地利用模型参数，从而提升推理性能并节省 token 输出。
在多项主流测试基准（如 MTBench、AIME-2024）中，Chimera 版本的表现优于普通 R1版本，展现出显著的推理能力和经济性。
在深入了解 AoE 架构之前，我们需要了解混合专家（MoE）架构。MoE 架构将 Transformer 的前馈层划分为多个 “专家”，每个输入标记仅会路由到部分专家。这种方法有效提高了模型的效率和性能。
例如，2023年 Mistral 推出的 Mixtral-8x7B 模型，尽管激活的参数数量仅为13亿，却能够与拥有700亿参数的 LLaMA-2-70B 模型相媲美，推理效率提高了6倍。
AoE 架构利用 MoE 的细粒度特性，允许研究者从现有的混合专家模型中构建具有特定能力的子模型。通过插值和选择性合并父模型的权重张量，生成的新模型不仅保留了优良特性，还能够根据实际需求灵活调整其性能表现。
研究者选择了 DeepSeek-V3-0324和 DeepSeek-R1作为父模型，基于不同的微调技术，使得这两个模型在推理能力和指令遵循方面都表现卓越。
在构建新的子模型过程中，研究者首先需要准备父模型的权重张量，并通过解析权重文件进行直接操作。接着，通过定义权重系数，研究者可以平滑地插值和合并父模型的特征，生成新的模型变体。
在合并过程中，研究者引入了阈值控制与差异筛选机制，确保只有在显著差异的情况下，才将相关张量纳入合并范围，从而减少模型复杂性和计算成本。
在 MoE 架构中，路由专家张量是至关重要的组成部分，它决定了输入标记在推理过程中选择的专家模块。AoE 方法特别关注这些张量的合并，研究者发现，通过优化路由专家张量，可以显著提升子模型的推理能力。
最终，通过 PyTorch 框架，研究者实现了模型的合并。合并后的权重被保存到新的权重文件中，生成了新的子模型，展现出高效性和灵活性。
开源地址: https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

以下是关于开源DeepSeek R1增强版的相关介绍：

技术原理

混合专家（MoE）架构：DeepSeek R1采用了混合专家架构，其拥有6710亿参数，但每个词元仅需激活370亿参数进行处理。这种架构类似于“分工合作”的团队，模型内部集成了多个“专家”子模型，每个专家专注于特定类型的数据或任务。当接收到输入时，系统会根据输入特点动态选择部分专家参与计算，而非让整个庞大网络都参与，从而大大减少了不必要的计算量，加快了模型的响应速度，也使得模型在处理复杂任务时能够调用最合适的“专家”，实现高效、精准的推理。
动态GPU调度机制：DeepSeek R1的推理系统引入了动态GPU调度机制，能够根据实时的推理请求负载，动态分配GPU资源。在高负载时充分利用计算资源，在低负载时减少不必要的资源浪费，这种灵活的调度策略不仅提高了系统的整体性能，还显著降低了运营成本。
模型压缩技术：R1推理系统采用了模型压缩技术，通过量化和剪枝等手段，将模型的大小和计算复杂度降低，从而进一步提高了推理速度，使得R1在保持高性能的同时，具备了更强的商业竞争力。
多阶段训练管道：DeepSeek-R1采用了包含冷启动数据和多阶段训练的管道。首先收集数千个冷启动数据来微调基础模型，然后进行推理导向强化学习，在引入语言一致性奖励后，通过对RL检查点进行拒绝采样，并结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据来创建新的SFT数据，重新训练基础模型，最后进行全场景强化学习进一步优化。

性能表现

推理能力：DeepSeek R1在多个推理任务上表现出色，如在AIME 2024上的Pass@1分数达到79.8%，略高于OpenAI-o1-1217；在MATH-500上获得了97.3%的分数，与OpenAI-o1-1217相当，并且显著优于其他模型。此外，在编码相关任务上，DeepSeek R1在代码竞赛任务中表现出专家水平，在Codeforces上达到2029的Elo评级，超过了比赛中96.3%的人类参与者。
知识基准测试：在MMLU、MMLU-Pro和GPQA Diamond等基准测试中，DeepSeek R1取得了出色的结果，分别得分为90.8%、84.0%和71.5%，虽然略低于OpenAI-o1-1217，但超过了其他闭源模型。
其他任务：DeepSeek R1在创意写作、一般问答、编辑、总结等广泛的任务中也表现出色。例如，在AlpacaEval 2.0上实现了87.6%的长度控制胜率，在ArenaHard上的胜率为92.3%。

成本优势

训练成本：DeepSeek R1的训练成本大幅降低，仅耗资600万美元、使用2000块英伟达H800图形处理器（GPU）就完成了模型训练，而GPT-4的训练成本高达8000万至1亿美元。
推理成本：基于R1模型的DeepSeek Reasoner每百万输入令牌成本为0.55美元，每百万输出令牌成本为2.19美元，相比OpenAI o1，成本低95%。此外，DeepSeek R1还通过动态GPU调度机制、模型压缩技术等进一步降低了推理成本。

应用场景

教育领域：DeepSeek R1在教育任务中具有竞争优势，如在MMLU等知识基准测试中表现出色，可以帮助学生更好地理解和掌握知识。
编程与工程领域：在代码竞赛和工程相关任务上，DeepSeek R1表现出专家水平，能够为开发人员提供实际帮助。
内容创作与问答：DeepSeek R1在创意写作、一般问答等任务中表现出色，可以用于内容创作、智能客服等领域。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。