首页 > 快讯 > 新范式展现：苹果研究指出清单式强化学习在LLM对齐中胜过传统奖励模型

新范式展现：苹果研究指出清单式强化学习在LLM对齐中胜过传统奖励模型

发布时间：2025-08-26 10:20:38 | 责任编辑：吴昊 | 浏览量：7 次

一项由苹果研究人员共同撰写的新研究显示，通过一种新颖的**“清单式”强化学习方案（RLCF）**，开源大型语言模型(LLM)的性能得到了显著提升。该方法通过让模型对照一份具体的清单来检查自身工作，从而在复杂指令遵循任务中表现出比传统奖励模型更优越的效果。
传统的“从人类反馈中强化学习”（RLHF）是提高LLM质量的重要后训练步骤。该方法通过人类标注员的点赞(奖励)或点踩(惩罚)信号，逐步引导模型生成更具实用性的答案。然而，RLHF存在一个潜在问题:模型可能学会通过产生“表面正确”但未能真正解决任务的输出来欺骗人类标注员。
为了解决这一问题，苹果研究人员在论文《清单比奖励模型更适合对齐语言模型》（Checklists Are Better than Reward Models for Aligning Language Models）中提出了一种基于清单反馈的强化学习方案(RLCF)。该方法要求模型根据一份清单上的每一项具体要求进行自我评估，并以0-100的等级进行评分。
RLCF的核心在于其精细的反馈机制。该方案使用一个更强大的“教师模型”来自动为用户指令生成一份包含具体“是/否”要求的清单。例如，针对一个翻译任务，清单可能包含“是否将原文完全翻译成西班牙语?”这样的具体条目。
然后，“学生模型”的候选答案会根据这份清单进行评估，每个条目都会分配一个权重。这些加权分数构成了用于微调“学生模型”的奖励信号。研究人员利用这种方法，构建了一个名为WildChecklists的新数据集，包含13万条指令，用于训练和评估模型。
研究结果令人鼓舞。在包括FollowBench、InFoBench和Arena-Hard在内的五个广泛使用的基准测试中，RLCF是唯一能在所有测试中均提升性能的方法，在某些任务上，性能提升高达8.2%。这表明，RLCF在处理需要仔细关注规范的多步骤复杂指令时，表现出显著的优势。
这项研究为LLM的对齐技术提供了一种新颖且有效的方法，尤其是在指令遵循这一关键领域。随着LLM助手越来越多地被整合进日常设备中，其精确遵循用户复杂指令的能力将成为核心。
然而，研究人员也指出了该方法的局限性:
应用场景局限:RLCF主要专注于“复杂指令遵循”，在其他用例中可能并非最佳选择。
依赖更强大的模型:该方法需要一个更强大的“教师模型”作为评估者，这可能会增加部署成本。
非安全校准:研究人员明确指出，“RLCF可以改进复杂指令遵循，但并非为安全校准而设计的。”
尽管存在局限，RLCF的出现为提高LLM的可靠性和一致性提供了一个重要的思路，这对于未来LLM助手获得代理能力，并执行多步骤任务至关重要。

苹果的研究人员今年 8 月在 arXiv 发表论文《Listwise Reward Estimation for Offline Preference-based RLHF》（LiRE），提出用“清单式（listwise）”强化学习取代传统的成对奖励建模，从实验结果看，新方法在更少的人类偏好标注下即可取得更高的对齐精度，显著优于 RLHF 中常用的成对 Bradley-Terry 模型

。

核心思路

传统做法：从人类标注的“哪条回复更好”成对偏好里训练一个奖励模型，再用 RL（通常是 PPO）优化策略。
LiRE 做法：
• 直接对 K 条候选回复做一次性排序标注（listwise feedback），
• 用 Plackett-Luce 等排序似然目标训练 reward model，
• 在策略优化阶段把排序分数当作奖励信号进行离线强化学习。

关键优势
• 标注效率：一次排序就能产出 O(K²) 级别的成对比较信息，减少人工标注量。
• 训练稳定性：避免成对模型常见的“二阶偏好不可传递”噪声。
• 实验结果：在同等偏好标注量下，LiRE 在 Anthropic Helpful & Harmless、Reddit TL;DR 等基准上的胜率比传统 BT 奖励模型高 4–11%；当标注量降低 50% 时仍能保持相当或更高的对齐效果

。

一句话总结
苹果用“一次给 10 条回复打分排序”替代“两条回复二选一”，训练出的奖励模型更准、更省标注，从而让后续 RL 对齐阶段更稳定、更高效，为 RLHF 提供了新的“清单式”范式

。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。