首页 > 快讯 > 清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM，让小模型超越 GPT-4o

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM，让小模型超越 GPT-4o

发布时间：2025-04-14 14:52:31 | 责任编辑：字母汇 | 浏览量：157 次

在人工智能领域，随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注，大语言模型（LLM）的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。然而，在处理复杂推理问题时，如何准确评估模型每一步的回答质量，依然是一个亟待解决的难题。为此，清华大学与上海 AI Lab 共同提出了生成式过程奖励模型(GenPRM)，为过程监督推理提供了创新解决方案。
传统的过程奖励模型（PRM）虽然能够验证推理步骤的正确性，但由于采用了标量评分机制，难以捕捉深层次的逻辑错误。此外，PRM 的判别式建模方式也限制了其在测试阶段的扩展能力。为此，GenPRM 结合了生成式思维链推理和代码验证，并引入了测试时扩展机制，开辟了全新的研究方向。
GenPRM 的设计理念模拟了人类解题时的思维过程，允许模型在每一步推理时进行自然语言分析，这样不仅提高了透明性，还使得步骤评估更加可解释。同时，GenPRM 生成并执行与推理相关的 Python 代码，确保推理的可靠性。这种 “先解释、再验证” 的机制，不仅能够判断对错，还能提供具体的改进建议，显著提升了过程监督的效果。
令人惊讶的是，GenPRM 只用了23K 的训练样本，就取得了超过 GPT-4o 的优异表现。在 ProcessBench 等数学推理基准的测试中，1.5B 参数的 GenPRM 通过测试时扩展技术的加持，表现优异;而其7B 参数版本则成功超越了72B 参数的 Qwen2.5-Math-PRM，展现了强大的步骤级批评能力。
此外，GenPRM 的优势还体现在其高效的数据合成方法上。通过相对进步估计（RPE）和代码验证，GenPRM 生成了高质量的过程监督数据，大幅减少了对大量标注数据的需求。研究者们利用 QwQ-32B 模型合成数据，并通过共识过滤保留高质量样本，最终形成了这个仅有23K 的训练集。
未来，GenPRM 不仅能作为答案的验证器，也能够扮演 “教练” 的角色，通过反馈指导策略模型的迭代优化。这种 “生成 - 批评 - 反思” 的闭环为大语言模型的自我改进提供了全新的路径，未来也可能扩展到代码生成和多模态推理等领域。
项目地址：https://ryanliu112.github.io/GenPRM/

清华大学与上海 AI Lab 联合提出了生成式过程奖励模型（GenPRM），在过程监督推理方面取得了显著成果，以下是相关介绍：

GenPRM 的创新点

生成式思维链推理与代码验证结合：GenPRM 模拟人类解题时的逻辑推导，对每一步推理进行自然语言分析，提供透明、可解释的步骤评估。同时，它还会生成并执行对应数学运算的 Python 代码，将文字推导与实际计算结果交叉验证，避免了“符号推导正确但计算失误”的情况。
引入测试时扩展机制：在推理阶段，GenPRM 通过并行采样多条推理路径，综合多条路径的奖励值并取平均，得到最终奖励。这种策略充分利用额外计算资源，进一步提升评估精度，使小模型也能在复杂任务中表现出色。
高效的数据合成方法：GenPRM 仅使用 23K 训练样本就取得了优异的性能，远少于许多模型动辄数十万级的数据量。其高效性源于独特的数据合成方法，结合相对进步估计（RPE）和代码验证，生成高质量的过程监督数据。

GenPRM 的性能表现

超越 GPT-4o：在 ProcessBench 等数学推理基准的测试中，仅 1.5B 参数的 GenPRM 通过测试时扩展超越了 GPT-4o；其 7B 参数版本更是击败了 72B 参数的 Qwen2.5-Math-PRM，展现出强大的步骤级批评能力。
策略模型测试时扩展能力：GenPRM 同样适用于策略模型测试时扩展。通过 Best-of-N 实验，GenPRM-7B 展现出相比于基线方法更加优异的筛选能力，并可通过测试时扩展进一步增强过程监督能力。

GenPRM 的应用前景

GenPRM 不仅能作为验证器筛选答案，还能作为步骤级别的批评模型指导策略模型迭代优化原始回答。这种“生成 - 批评 - 反思”的闭环为大语言模型的自我改进提供了可解释的技术路径。未来，GenPRM 也可能扩展到代码生成和多模态推理等领域。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：伦敦AI创意工作室 Wonder 获 300 万美元融资 ElevenLabs、OpenAI负责人参与投资

下一篇：人工智能在艺术创作中的创新应用有哪些？

最新Ai工具

新

VideoLingo 中国🇨🇳

VideoLingo 是一款专注于视频内容本地化的 AI 工具，提供多语言翻译、专业术语识别、智能字幕生成和智能配音等功能，帮助用户快速实现高质量的视频本地化。

新

Vid2txt 美国🇺🇸

Vid2txt 是一款简单易用的 AI 驱动的视频和音频转录应用，支持多种格式，提供快速、准确且离线的转录服务。

新

Vespa 挪威🇳🇴

Vespa 是一个专注于开发和运营大规模应用的AI搜索平台，结合了大数据、向量搜索、机器学习排序和实时推理。它支持原生张量操作，适用于复杂排序和决策，能够实现企业级的实时AI应用，如RAG（检索增强生成）、推荐和智能搜索。Vespa 支持查询、组织和推断向量、张量、文本和结构化数据，能够在低延迟（低于100毫秒）的情况下处理数十亿动态变化的数据项和数千次查询。它还支持混合搜索、相关性模型和多向量表示，适用于生成式AI应用、推荐和个性化系统、半结构化导航以及个人/私密搜索等多种场景。

新

Vault 美国🇺🇸

Vault 是一个基于 AI 的内容智能平台，通过预测性内容智能技术，帮助媒体公司和内容创作者提前预测内容表现，优化内容生命周期中的决策。

新

Vanna 美国🇺🇸

Vanna 是一个企业级的AI解决方案平台，专注于数据检索、分析和文本到SQL的能力。它提供多种产品，包括无需设置即可使用的Vanna Cloud、可在企业内部部署的Vanna Self-Hosted Enterprise、可通过API集成到现有应用中的Vanna Embedded，以及完全开源的Vanna OSS。Vanna 的核心优势在于其高准确性、安全性设计、自学习能力和高度可定制性，支持多种数据库和前端集成，帮助用户通过自然语言查询快速获取数据库中的洞察，减少编写SQL的时间。

新

Helicone 美国🇺🇸

Helicone 是一个为快速增长的AI公司提供的平台，帮助他们路由、调试和分析应用程序。该平台支持无需信用卡的7天免费试用，旨在帮助开发者快速构建和优化AI应用。

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM，让小模型超越 GPT-4o

GenPRM 的创新点

GenPRM 的性能表现

GenPRM 的应用前景

最新Ai信息

最新Ai工具

发表回复

热门AI推荐