新范式展现:苹果研究指出清单式强化学习在LLM对齐中胜过传统奖励模型
发布时间:2025-08-26 10:20:38 | 责任编辑:吴昊 | 浏览量:7 次
一项由苹果研究人员共同撰写的新研究显示,通过一种新颖的**“清单式”强化学习方案(RLCF)**,开源大型语言模型(LLM)的性能得到了显著提升。该方法通过让模型对照一份具体的清单来检查自身工作,从而在复杂指令遵循任务中表现出比传统奖励模型更优越的效果。
传统的“从人类反馈中强化学习”(RLHF)是提高LLM质量的重要后训练步骤。该方法通过人类标注员的点赞(奖励)或点踩(惩罚)信号,逐步引导模型生成更具实用性的答案。然而,RLHF存在一个潜在问题:模型可能学会通过产生“表面正确”但未能真正解决任务的输出来欺骗人类标注员。
为了解决这一问题,苹果研究人员在论文《清单比奖励模型更适合对齐语言模型》(Checklists Are Better than Reward Models for Aligning Language Models)中提出了一种基于清单反馈的强化学习方案(RLCF)。该方法要求模型根据一份清单上的每一项具体要求进行自我评估,并以0-100的等级进行评分。
RLCF的核心在于其精细的反馈机制。该方案使用一个更强大的“教师模型”来自动为用户指令生成一份包含具体“是/否”要求的清单。例如,针对一个翻译任务,清单可能包含“是否将原文完全翻译成西班牙语?”这样的具体条目。
然后,“学生模型”的候选答案会根据这份清单进行评估,每个条目都会分配一个权重。这些加权分数构成了用于微调“学生模型”的奖励信号。研究人员利用这种方法,构建了一个名为WildChecklists的新数据集,包含13万条指令,用于训练和评估模型。
研究结果令人鼓舞。在包括FollowBench、InFoBench和Arena-Hard在内的五个广泛使用的基准测试中,RLCF是唯一能在所有测试中均提升性能的方法,在某些任务上,性能提升高达8.2%。这表明,RLCF在处理需要仔细关注规范的多步骤复杂指令时,表现出显著的优势。
这项研究为LLM的对齐技术提供了一种新颖且有效的方法,尤其是在指令遵循这一关键领域。随着LLM助手越来越多地被整合进日常设备中,其精确遵循用户复杂指令的能力将成为核心。
然而,研究人员也指出了该方法的局限性:
应用场景局限:RLCF主要专注于“复杂指令遵循”,在其他用例中可能并非最佳选择。
依赖更强大的模型:该方法需要一个更强大的“教师模型”作为评估者,这可能会增加部署成本。
非安全校准:研究人员明确指出,“RLCF可以改进复杂指令遵循,但并非为安全校准而设计的。”
尽管存在局限,RLCF的出现为提高LLM的可靠性和一致性提供了一个重要的思路,这对于未来LLM助手获得代理能力,并执行多步骤任务至关重要。
。
核心思路
-
传统做法:从人类标注的“哪条回复更好”成对偏好里训练一个奖励模型,再用 RL(通常是 PPO)优化策略。
-
LiRE 做法:
• 直接对 K 条候选回复做一次性排序标注(listwise feedback),
• 用 Plackett-Luce 等排序似然目标训练 reward model,
• 在策略优化阶段把排序分数当作奖励信号进行离线强化学习。
• 标注效率:一次排序就能产出 O(K²) 级别的成对比较信息,减少人工标注量。
• 训练稳定性:避免成对模型常见的“二阶偏好不可传递”噪声。
• 实验结果:在同等偏好标注量下,LiRE 在 Anthropic Helpful & Harmless、Reddit TL;DR 等基准上的胜率比传统 BT 奖励模型高 4–11%;当标注量降低 50% 时仍能保持相当或更高的对齐效果
。
苹果用“一次给 10 条回复打分排序”替代“两条回复二选一”,训练出的奖励模型更准、更省标注,从而让后续 RL 对齐阶段更稳定、更高效,为 RLHF 提供了新的“清单式”范式
。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。