首页 > 快讯 > 学术揭秘！清华大学与上海交大研究改变观念：强化学习或成大模型推理中的”障碍”

学术揭秘！清华大学与上海交大研究改变观念：强化学习或成大模型推理中的”障碍”

发布时间：2025-04-23 14:03:46 | 责任编辑：张毅 | 浏览量：82 次

清华大学与上海交通大学联合发表的最新论文，对业界普遍认为"纯强化学习（RL）能提升大模型推理能力"的观点提出了挑战性反驳。研究发现，引入强化学习的模型在某些任务中的表现，反而逊色于未使用强化学习的原始模型。
研究团队在数学、编码和视觉推理三大领域进行了系统性实验:
研究结果引发学界激烈讨论:
研究团队提出关键区分:
强化学习更像是"能力调控器"而非"能力创造器"，它能让模型更擅长做已知的事，但难以开发新的推理路径。
这项研究为过热的大模型RL训练热潮敲响警钟，提示行业应:

清华大学与上海交通大学的研究团队在最新研究中对强化学习（RL）在大语言模型（LLM）推理能力提升中的作用提出了挑战性观点，认为强化学习可能并非大模型推理能力提升的“加速器”，甚至在某些情况下会限制模型的推理能力。

研究背景与动机

强化学习（尤其是带有可验证奖励的强化学习，RLVR）被广泛应用于大语言模型的训练中，被认为可以提升模型的推理能力，甚至让模型学会新的推理策略。然而，清华大学LeapLab团队与上海交通大学的研究人员通过一系列实验发现，RLVR可能并未真正提升模型的推理能力，而只是提高了采样效率。

实验设计与结果

研究团队在数学、编码和视觉推理三大领域进行了系统性实验，使用了多个大语言模型系列（如Qwen-2.5和LLaMA-3.1）及其经过RL训练的变体。

数学任务：在GSM8K、MATH500和AIME24等基准测试中，RL模型在低采样次数（k值）下准确率有所提升，但在高k值时问题覆盖率显著下降。
编码任务：在HumanEval+等测试中，RLVR训练模型的单样本pass@1分数提高，但在高采样数（k=128）时覆盖率下降。
视觉推理：Qwen-2.5-VL-7B模型在多模态任务中表现一致，RL未改变其基本问题解决策略。

此外，研究团队还发现，基础模型在给予足够多的尝试机会后，不仅能赶上RLVR模型的表现，甚至能够超越它们。

研究结论与观点

研究结果表明，强化学习更像是“能力调控器”而非“能力创造器”，它能让模型更擅长做已知的事，但难以开发新的推理路径。研究团队提出，真正的推理增强可能需要蒸馏等其他方法。

学界争议

该研究引发了学界的激烈讨论。支持方认为RL提高了采样效率但限制了推理能力开发；反对方则指出可能是奖励结构缺陷而非RL本身问题；中立观点建议结合蒸馏等其他方法增强推理。

行业启示

这项研究为过热的大模型RL训练热潮敲响了警钟，提示行业应更关注基础模型的表示能力与知识组织，明确区分能力提升与效率优化的目标，并建立更科学的推理能力评估体系。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。