学术揭秘!清华大学与上海交大研究改变观念:强化学习或成大模型推理中的”障碍”
发布时间:2025-04-23 14:03:46 | 责任编辑:张毅 | 浏览量:4 次
清华大学与上海交通大学联合发表的最新论文,对业界普遍认为"纯强化学习(RL)能提升大模型推理能力"的观点提出了挑战性反驳。研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于未使用强化学习的原始模型。
研究团队在数学、编码和视觉推理三大领域进行了系统性实验:
研究结果引发学界激烈讨论:
研究团队提出关键区分:
强化学习更像是"能力调控器"而非"能力创造器",它能让模型更擅长做已知的事,但难以开发新的推理路径。
这项研究为过热的大模型RL训练热潮敲响警钟,提示行业应:
清华大学与上海交通大学的研究团队在最新研究中对强化学习(RL)在大语言模型(LLM)推理能力提升中的作用提出了挑战性观点,认为强化学习可能并非大模型推理能力提升的“加速器”,甚至在某些情况下会限制模型的推理能力。
研究背景与动机
强化学习(尤其是带有可验证奖励的强化学习,RLVR)被广泛应用于大语言模型的训练中,被认为可以提升模型的推理能力,甚至让模型学会新的推理策略。然而,清华大学LeapLab团队与上海交通大学的研究人员通过一系列实验发现,RLVR可能并未真正提升模型的推理能力,而只是提高了采样效率。
实验设计与结果
研究团队在数学、编码和视觉推理三大领域进行了系统性实验,使用了多个大语言模型系列(如Qwen-2.5和LLaMA-3.1)及其经过RL训练的变体。
-
数学任务:在GSM8K、MATH500和AIME24等基准测试中,RL模型在低采样次数(k值)下准确率有所提升,但在高k值时问题覆盖率显著下降。
-
编码任务:在HumanEval+等测试中,RLVR训练模型的单样本pass@1分数提高,但在高采样数(k=128)时覆盖率下降。
-
视觉推理:Qwen-2.5-VL-7B模型在多模态任务中表现一致,RL未改变其基本问题解决策略。
此外,研究团队还发现,基础模型在给予足够多的尝试机会后,不仅能赶上RLVR模型的表现,甚至能够超越它们。
研究结论与观点
研究结果表明,强化学习更像是“能力调控器”而非“能力创造器”,它能让模型更擅长做已知的事,但难以开发新的推理路径。研究团队提出,真正的推理增强可能需要蒸馏等其他方法。
学界争议
该研究引发了学界的激烈讨论。支持方认为RL提高了采样效率但限制了推理能力开发;反对方则指出可能是奖励结构缺陷而非RL本身问题;中立观点建议结合蒸馏等其他方法增强推理。
行业启示
这项研究为过热的大模型RL训练热潮敲响了警钟,提示行业应更关注基础模型的表示能力与知识组织,明确区分能力提升与效率优化的目标,并建立更科学的推理能力评估体系。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
上一篇: AI如何优化法律检索?