首页 > 快讯 > DeepSeek 与清华联合研究:创新奖励模型推理方法,提升可扩展性

DeepSeek 与清华联合研究:创新奖励模型推理方法,提升可扩展性

发布时间:2025-04-05 11:42:22 | 责任编辑:字母汇 | 浏览量:9 次

《DeepSeek 与清华联合研究:创新奖励模型推理方法,提升可扩展性》相关软件

DeepSeek

近日,DeepSeek 和清华的研究者发布新论文,探讨了奖励模型的推理时 Scaling 方法,让 DeepSeek R2似乎更近一步。目前,强化学习在大语言模型的大规模后训练阶段广泛应用,但面临为大语言模型获取准确奖励信号的挑战。
研究者发现,采用点式生成式奖励建模(GRM)能提升模型适应能力和推理阶段可扩展性。为此,他们提出自我原则点评调优(SPCT)学习方法,经此训练得到 DeepSeek - GRM 模型,如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验显示,SPCT 显著提高了 GRM 的质量和可扩展性,在多个基准测试中表现优于现有方法和模型。此外,研究者还引入元奖励模型(meta RM)引导投票过程,提升扩展性能。
SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。研究者采用点式 GRM,还引入提示式采样提高预测奖励与真实奖励的一致性。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。
为提升 DeepSeek - GRM 性能,研究团队探索推理时扩展策略。通过生成奖励进行投票,扩大奖励空间,提升最终奖励质量。同时,训练元奖励模型引导投票,过滤低质量样本。实验结果表明,DeepSeek - GRM -27B 整体性能出色,通过推理时扩展还能进一步提升。消融研究显示在线训练对 GRM 很重要,原则生成对模型性能也至关重要。此外,研究还证明了 DeepSeek - GRM -27B 在推理时扩展上的有效性,优于单纯扩大模型规模。
划重点:
💡DeepSeek 和清华研究者提出自我原则点评调优(SPCT)方法及引入元奖励模型(meta RM),提升奖励模型推理时可扩展性,构建出 DeepSeek - GRM 系列模型。
🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段,提高了 GRM 质量和扩展性,使 DeepSeek - GRM -27B 在基准测试中表现优异。
📈研究团队探索推理时扩展策略,通过生成奖励投票和元奖励模型引导投票提升性能,证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。
论文地址:
https://arxiv.org/abs/2504.02495

DeepSeek 与清华联合研究:创新奖励模型推理方法,提升可扩展性

DeepSeek与清华大学的研究团队联合发布了一篇题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的论文。该研究提出了一种新的方法——自我原则点评调优(Self-Principled Critique Tuning,SPCT),用于提升奖励模型在推理阶段的可扩展性。以下是该研究的核心内容和成果:

研究背景与挑战

强化学习(RL)是大语言模型(LLM)大规模后训练阶段的常用方法,但为LLM获取准确的奖励信号是一个关键挑战。传统方法在提升推理能力时常常受到固定架构的限制。DeepSeek和清华大学的研究者们提出了一种新的方法,通过增加推理计算资源来提升通用奖励模型(RM)的能力。

研究方法

研究者们采用了点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM),并提出了自我原则点评调优(SPCT)学习方法。SPCT包括两个阶段:

  1. 拒绝式微调(Rejective Fine-Tuning,RFT):作为冷启动阶段,让GRM适应不同输入类型,并以正确格式生成原则与点评内容。
  2. 基于规则的在线强化学习(Rule-based Online RL):通过提升生成的原则和点评内容来强化通用奖励的生成过程。

此外,研究者们还引入了元奖励模型(Meta Reward Model,Meta RM)来引导投票过程,以提升扩展性能。

实验结果

实验表明,SPCT显著提高了GRM的质量和可扩展性,在多个基准测试中表现优于现有方法和模型。具体表现如下:

  • DeepSeek-GRM-27B在整体性能上超过了基线方法,并且与一些强大的公开RM(如Nemotron-4-340B-Reward和GPT-4o)表现相当。
  • 通过推理时扩展(inference-time scaling),DeepSeek-GRM-27B还能进一步提升,达到最佳整体结果。
  • 在推理时扩展性方面,DeepSeek-GRM-27B展现出优于单纯扩大模型规模的性能。

研究贡献

该研究的主要贡献包括:

  1. 提出了一种新方法——自我原则点评调优(SPCT),用于推动通用奖励建模在推理阶段实现有效的可扩展性,构建出DeepSeek-GRM系列模型。
  2. 引入了元奖励模型(Meta RM),进一步提升推理扩展性能。
  3. 证明了推理阶段的扩展策略在性能上优于单纯扩大模型规模。

未来展望

研究团队指出,下一步将探索多模态扩展、实时学习与安全增强等方向。这项研究不仅为提升大语言模型的推理能力提供了新的方法论,也为AI技术的普及和民主化进程提供了有力支持。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具