首页 > 快讯 > DeepSeek 与清华联合研究:创新奖励模型推理方法，提升可扩展性

DeepSeek 与清华联合研究:创新奖励模型推理方法，提升可扩展性

发布时间：2025-04-05 11:42:22 | 责任编辑：字母汇 | 浏览量：189 次

《DeepSeek 与清华联合研究:创新奖励模型推理方法，提升可扩展性》相关软件官网

近日，DeepSeek 和清华的研究者发布新论文，探讨了奖励模型的推理时 Scaling 方法，让 DeepSeek R2似乎更近一步。目前，强化学习在大语言模型的大规模后训练阶段广泛应用，但面临为大语言模型获取准确奖励信号的挑战。
研究者发现，采用点式生成式奖励建模（GRM）能提升模型适应能力和推理阶段可扩展性。为此，他们提出自我原则点评调优(SPCT)学习方法，经此训练得到 DeepSeek - GRM 模型，如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验显示，SPCT 显著提高了 GRM 的质量和可扩展性，在多个基准测试中表现优于现有方法和模型。此外，研究者还引入元奖励模型(meta RM)引导投票过程，提升扩展性能。
SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段，让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。研究者采用点式 GRM，还引入提示式采样提高预测奖励与真实奖励的一致性。二是基于规则的在线强化学习阶段，采用基于规则的结果奖励，鼓励 GRM 生成更好的原则与点评内容，提升推理阶段可扩展性。
为提升 DeepSeek - GRM 性能，研究团队探索推理时扩展策略。通过生成奖励进行投票，扩大奖励空间，提升最终奖励质量。同时，训练元奖励模型引导投票，过滤低质量样本。实验结果表明，DeepSeek - GRM -27B 整体性能出色，通过推理时扩展还能进一步提升。消融研究显示在线训练对 GRM 很重要，原则生成对模型性能也至关重要。此外，研究还证明了 DeepSeek - GRM -27B 在推理时扩展上的有效性，优于单纯扩大模型规模。
划重点:
💡DeepSeek 和清华研究者提出自我原则点评调优（SPCT）方法及引入元奖励模型(meta RM)，提升奖励模型推理时可扩展性，构建出 DeepSeek - GRM 系列模型。
🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段，提高了 GRM 质量和扩展性，使 DeepSeek - GRM -27B 在基准测试中表现优异。
📈研究团队探索推理时扩展策略，通过生成奖励投票和元奖励模型引导投票提升性能，证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。
论文地址:
https://arxiv.org/abs/2504.02495

DeepSeek与清华大学的研究团队联合发布了一篇题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的论文。该研究提出了一种新的方法——自我原则点评调优（Self-Principled Critique Tuning，SPCT），用于提升奖励模型在推理阶段的可扩展性。以下是该研究的核心内容和成果：

研究背景与挑战

强化学习（RL）是大语言模型（LLM）大规模后训练阶段的常用方法，但为LLM获取准确的奖励信号是一个关键挑战。传统方法在提升推理能力时常常受到固定架构的限制。DeepSeek和清华大学的研究者们提出了一种新的方法，通过增加推理计算资源来提升通用奖励模型（RM）的能力。

研究方法

研究者们采用了点式生成式奖励建模（Pointwise Generative Reward Modeling, GRM），并提出了自我原则点评调优（SPCT）学习方法。SPCT包括两个阶段：

拒绝式微调（Rejective Fine-Tuning，RFT）：作为冷启动阶段，让GRM适应不同输入类型，并以正确格式生成原则与点评内容。
基于规则的在线强化学习（Rule-based Online RL）：通过提升生成的原则和点评内容来强化通用奖励的生成过程。

此外，研究者们还引入了元奖励模型（Meta Reward Model，Meta RM）来引导投票过程，以提升扩展性能。

实验结果

实验表明，SPCT显著提高了GRM的质量和可扩展性，在多个基准测试中表现优于现有方法和模型。具体表现如下：

DeepSeek-GRM-27B在整体性能上超过了基线方法，并且与一些强大的公开RM（如Nemotron-4-340B-Reward和GPT-4o）表现相当。
通过推理时扩展（inference-time scaling），DeepSeek-GRM-27B还能进一步提升，达到最佳整体结果。
在推理时扩展性方面，DeepSeek-GRM-27B展现出优于单纯扩大模型规模的性能。

研究贡献

该研究的主要贡献包括：

提出了一种新方法——自我原则点评调优（SPCT），用于推动通用奖励建模在推理阶段实现有效的可扩展性，构建出DeepSeek-GRM系列模型。
引入了元奖励模型（Meta RM），进一步提升推理扩展性能。
证明了推理阶段的扩展策略在性能上优于单纯扩大模型规模。

未来展望

研究团队指出，下一步将探索多模态扩展、实时学习与安全增强等方向。这项研究不仅为提升大语言模型的推理能力提供了新的方法论，也为AI技术的普及和民主化进程提供了有力支持。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：百度AI萝卜快跑获 “ 2025 爱迪生奖” 无人车领域最佳新产品奖金奖

下一篇：卡内基梅隆大学创新框架 AI2T：提升智能体开发效率，赋能多领域应用

DeepSeek 与清华联合研究:创新奖励模型推理方法，提升可扩展性

研究背景与挑战

研究方法

实验结果

研究贡献

未来展望

最新Ai信息

最新Ai工具