推理性能再飞跃!DeepSeek推创新技术SPCT,让大模型更懂人心
发布时间:2025-04-09 10:27:27 | 责任编辑:字母汇 | 浏览量:26 次
备受瞩目的中国人工智能研究实验室DeepSeek AI,继其强大的开源语言模型DeepSeek-R1之后,再次在大型语言模型(LLM)领域取得重大突破。近日,DeepSeek AI正式推出一项名为自主演原则的批判调优(Self-Principled Critique Tuning,简称SPCT)的创新技术,旨在构建更通用、更具扩展性的AI奖励模型(Reward Models,简称RMs)。这项技术有望显著提升AI在开放式任务和复杂环境中的理解和应对能力,为更智能的AI应用铺平道路。
在开发先进的LLM的过程中,强化学习(Reinforcement Learning,简称RL)已成为一项关键技术。RL通过引入反馈信号来指导模型的微调,使其能够生成更高质量的回复。而在这个过程中,奖励模型扮演着至关重要的角色,如同一个“裁判”,负责评估LLM的输出并给出相应的分数或“奖励”。这些奖励信号能够有效地引导RL过程,促使LLM学习产生更有用的内容。
然而,当前的奖励模型也面临着诸多限制。它们往往在规则明确或答案易于验证的狭窄领域表现出色,例如DeepSeek-R1等模型在数学和编程问题上的优秀表现就得益于在此类问题上明确的“正确答案”。但是,对于复杂、开放或主观性较强的一般领域查询,构建一个有效的奖励模型仍然是一个巨大的挑战。DeepSeek AI的研究人员在其论文中指出:“通用奖励模型需要在特定领域之外生成高质量的奖励,而这些领域的奖励标准更加多样和复杂,并且往往没有明确的参考或标准答案。”
为了克服现有奖励模型的局限性,DeepSeek AI的研究人员提出了SPCT这一全新的技术。他们强调了构建通用奖励模型需要应对的四个关键挑战:
研究人员指出,“基于点的生成式奖励建模”(Pointwise Generative Reward Modeling,GRM),即模型生成文本评论并从中导出分数的方法,能够为通用任务提供所需的灵活性和可扩展性。DeepSeek 团队在 GPT-4o 和 Gemma-2-27B 等模型上进行的初步实验表明,“某些原则可以指导生成式奖励模型在适当的标准内生成奖励,从而提高奖励的质量”,这启发了他们可以通过扩展高质量原则和准确评论的生成来实现奖励模型的推理时可扩展性。
基于以上发现,DeepSeek 团队开发了SPCT技术,该技术训练GRM根据查询和回复动态地生成原则和评论。研究人员认为,原则应该是“奖励生成的一部分,而不是一个预处理步骤”。通过这种方式,GRM可以根据其正在评估的任务即时生成原则,然后基于这些原则生成批判性意见。
SPCT包含两个主要阶段:
为了应对推理时可扩展性的挑战,研究人员对同一输入多次运行GRM,生成不同的原则和评论集。最终的奖励通过投票(聚合样本分数)确定。这使得模型能够考虑更广泛的视角,从而在获得更多资源时产生更准确和细致的最终判断。
此外,为了解决一些生成的原则/评论可能质量不高或存在偏差的问题,研究人员引入了一个“元奖励模型”(meta RM)——一个单独的、轻量级的标量RM,专门用于预测主要GRM生成的原则/评论是否可能导致正确的最终奖励。在推理过程中,元RM评估生成的样本并过滤掉低质量的判断,进一步提高了扩展性能。
研究人员将SPCT应用于谷歌的开源模型Gemma-2-27B,创建了DeepSeek-GRM-27B。在多个基准测试中,他们将其与几种强大的基线RM(包括LLM-as-a-Judge、标量RM和半标量RM)以及公开模型(如GPT-4o和Nemotron-4-340B-Reward)进行了评估。结果表明,DeepSeek-GRM-27B优于在相同数据上训练的基线方法。
与标准微调相比,SPCT显著提高了奖励的质量,更重要的是,提升了推理时的可扩展性。通过生成更多样本进行推理时扩展,DeepSeek-GRM-27B的性能大幅提升,甚至超过了更大的模型,如Nemotron-4-340B-Reward和GPT-4o。元RM的引入进一步提升了扩展性,通过过滤判断实现了最佳结果。研究人员指出:“通过更大规模的采样,DeepSeek-GRM可以根据更多样化的原则做出更准确的判断,并输出更精细的奖励。”有趣的是,与在可验证任务上表现良好但在其他方面表现较差的标量RM相比,SPCT在不同领域表现出更少的偏差。
更通用和可扩展的奖励模型的开发对于企业级AI应用具有广阔的前景。潜在的受益领域包括创意任务以及模型必须适应动态环境(如不断变化的客户偏好)的应用。
尽管取得了显著的成果,但与非生成式RM相比,DeepSeek-GRM在纯粹可验证的任务上的性能以及效率方面仍然存在挑战。DeepSeek 团队表示,未来的工作将侧重于提高效率和更深入的集成。他们总结道:“未来的方向可能包括将GRM集成到在线RL流程中,作为奖励系统的通用接口,探索与策略模型进行推理时协同扩展,或者作为基础模型的鲁棒离线评估器。”
论文:https://arxiv.org/abs/2504.02495

DeepSeek 最新推出的 SPCT(Self-Principled Critique Tuning,自我原则点评调优) 技术,标志着大模型在推理性能和对齐能力上的重大突破。该技术由 DeepSeek 联合清华大学 共同研发,旨在通过 动态优化推理过程,显著提升 AI 模型的输出质量,同时大幅降低训练成本。
SPCT 技术的核心创新
1. 从“直接打分”到“原则→点评→评分”的智能裁判
传统奖励模型(RM)通常直接输出分数(标量或成对比较),但这种方式存在 黑箱操作、缺乏可解释性、难以适应多样化任务 的问题。
SPCT 采用生成式奖励模型(GRM),让 AI 在评分前先做两件事:
- 自定原则(Self-Generated Principles):根据输入的问题和回答,动态生成评估标准(如“代码要简洁”“回答要诚实”)。
- 生成点评(Critique Generation):基于这些原则,详细分析回答的优缺点,最后再提取分数。
这种结构化评估方式让 AI 的评判过程 更透明、更灵活、更适应不同任务,同时为推理时性能扩展(Inference-Time Scaling)奠定基础。
2. 两阶段训练:拒绝式微调 + 在线强化学习
为了训练 GRM 具备高质量的原则生成和批判能力,SPCT 采用 两阶段训练法:
- 拒绝式微调(RFT)
- 让模型尝试生成“原则+点评+评分”,如果评分与人类偏好不符,则拒绝该样本。
- 仅保留 “有挑战性但正确” 的训练数据,避免模型学习过于简单或错误的样本。
- 基于规则的在线强化学习(Rule-Based Online RL)
- 模型在推理时生成原则和点评,并根据评分准确性(是否匹配人类偏好)获得 +1 或 -1 的奖励信号。
- 通过强化学习(GRPO 算法)持续优化,使模型 越评越准。
SPCT 的三大性能飞跃
1. 推理时可扩展性(Inference-Time Scaling)
传统 RM 增加计算资源(如更多 GPU)并不能显著提升评分质量,但 SPCT 让 AI 能“越算越准”:
- 基于投票的缩放(Voting):对同一问题采样多次(如 32 次),汇总不同原则和点评,取平均分提高鲁棒性。
- Meta RM 精英投票:训练一个“裁判的裁判”筛选高质量点评,仅用最优采样结果投票,进一步提升准确性。
实验显示,27B 参数的 DeepSeek-GRM 在 32 次采样后,性能媲美 671B 超大模型。
2. 训练成本骤降 99%
- 训练成本仅 1.2 万美元,相比 OpenAI GPT-4o 的 630 万美元,降低 99% 以上。
- 人工标注需求减少 90%,能耗降低 73%,更环保高效。
3. 更通用、更透明、更可控
- 自适应原则生成:不同任务(代码、问答、安全审核)自动调整评估标准,减少领域偏见。
- 可解释性增强:评分过程不再是黑箱,用户可查看 AI 的“点评”理解评分逻辑。
- 低延迟设计:支持 128K 上下文窗口,单查询延迟仅 1.4 秒,适用于实时机器人控制等场景。
行业影响与未来展望
- 挑战 OpenAI 等闭源模型:DeepSeek-GRM 在多个基准测试(Reward Bench、PPE)上超越 GPT-4o 的部分版本。
- 推动 AI 对齐(Alignment):让 AI 更符合人类价值观(Helpful, Honest, Harmless),减少有害输出。
- 低成本 AI 普及:SPCT 的高性价比特性,可能加速 AI 在中小企业、机器人、教育等领域的落地。
未来,DeepSeek 计划进一步优化 SPCT,探索 工具集成、多模态评估 等方向,让 AI 真正“更懂人心”。
SPCT 不仅是一次技术升级,更是 AI 对齐和推理优化的范式变革!
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。