首页 > 快讯 > 上海交大揭秘 LLM 与强化学习的融合：析对比 Llama 与 Qwen，首推 OctoThinker 系统

上海交大揭秘 LLM 与强化学习的融合：析对比 Llama 与 Qwen，首推 OctoThinker 系统

发布时间：2025-07-03 11:27:58 | 责任编辑：吴昊 | 浏览量：67 次

大型语言模型（LLM）通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展，如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型，展现出强大的推理能力。然而，这种成功在不同的基础模型系列中难以复制，尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?
OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破，推动了对千亿参数以下小型模型强化学习能力的探索。然而，这些进展大多局限于 Qwen 模型系列，难以在 Llama 等模型上复现。预训练流程缺乏透明度，使得理解预训练如何影响强化学习的扩展变得困难。一些非传统研究发现，一次性提示可以提高 Qwen 的推理能力，但对 Llama 却收效甚微。尽管 OpenWebMath、MathPile 等项目致力于整理高质量的数学预训练语料库，但其规模仍受限于千亿个 token 以下。
上海交通大学的研究人员以 Qwen 和 Llama 为研究对象，深入探究了中期训练策略对强化学习动态的影响，并得出了以下见解:
首先，像 MegaMath-Web-Pro 这样的高质量数学语料库能同时提升基础模型和强化学习的效果。其次，使用问答式数据，特别是包含长 CoT（Chain-of-Thought）推理的数据，可以进一步增强强化学习效果。第三，长 CoT 会在强化学习训练中引入冗长性和不稳定性。最后，在中期训练中应用扩展可以提升下游强化学习的性能。
研究人员提出了一种名为“稳定-衰减”的两阶段中期训练策略:首先使用2000亿个 token 训练基础模型，然后在三个以 CoT 为中心的分支上使用200亿个 token 进行训练。最终，这一策略成功生成了具有强大强化学习兼容性的 OctoThinker 模型。
研究人员使用 MATH8K 数据集进行强化学习（RL）训练提示，配置包括全局训练批次大小128、每个查询16个 rollout 响应以及 PPO 最小批次大小64。实验在 Llama-3.2-3B-Base 和 Qwen2.5-3B-Base 模型上进行。在评估中，基础语言模型采用少样本提示，而强化学习调优模型在 GSM8K、MATH500、OlympiadBench 和 AMC23 等指标任务上采用零样本提示。
在强化学习训练期间，Qwen 模型的响应长度持续增加并保持在合理范围内，而 Llama 模型则表现出异常行为，平均响应长度飙升至4，096个 token。评估结果进一步表明，强化学习调优后的 Qwen2.5-3B 在各个基准测试中均有所提升，而 Llama-3.2-3B 的提升则微乎其微。
在13个数学基准测试中，每个 OctoThinker 分支都比原始 Llama 基础模型提升了10%-20%，并且在所有规模的稳定阶段模型上都取得了持续的提升。OctoThinker-Zero 系列在强化学习扩展过程中展现出多样化的思维行为，其中 OctoThinker-Long 变体表现出色。在强化学习训练过程中比较三个3B 规模基础模型时，OctoThinker-Long-3B 的表现优于原始 Llama-3.2-3B 模型，并与以强大的推理能力和广泛预训练而闻名的 Qwen2.5-3B 模型达到相近的性能水平。混合分支和短分支的性能略低，尤其是在更具挑战性的基准测试中。
该研究深入探讨了 Llama 和 Qwen 等基础模型在强化学习推理过程中行为差异的原因，并强调了中期训练对强化学习可扩展性的重要性。两阶段中期训练策略成功将 Llama 转化为更适合强化学习的基础模型，最终诞生了 OctoThinker 模型。
未来的研究方向包括:策划更高质量的数学语料库以改善中期训练;使用开放配方创建 RL 友好的基础模型，无需从长 CoT 推理模型中进行提炼;分离 QA 格式和内容以分别了解它们的贡献;并通过新的分支（例如工具集成推理）扩展 OctoThinker 家族。

上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker 破解 RL 兼容性难题

核心发现

模型初始行为决定 RL 成效：Qwen 模型在强化学习（RL）中表现优异，因其预训练阶段已习得验证、回溯等“自我改进”认知行为；Llama 模型则缺乏这些行为，导致 RL 训练时易过早输出答案或生成重复内容，性能难以提升。
高质量数学语料是关键：研究团队发现，只有高质量数学推理数据（如 MegaMath-Web-Pro）能显著提升 RL 性能，而普通语料反而可能适得其反。
Mid-training 是“兼容性开关”：在预训练与微调之间插入“中期训练”阶段，通过高质量数学语料、思维链格式化数据及渐进式长度控制策略，可系统性提升 Llama 的 RL 适配性，使其性能逼近 Qwen。

OctoThinker 解决方案

三分支训练设计：
- 长推理分支：擅长复杂问题，生成详细思维链。
- 短推理分支：高效简洁，适合简单任务。
- 混合分支：平衡深度与效率，适应多样化场景。
渐进式长度控制：类似“从短文到长文”的教学方法，逐步引导模型适应长推理，避免 RL 训练中的不稳定行为。
Stable-then-Decay 策略：先稳定模型行为，再逐步衰减约束，最终释放 RL 扩展潜力。

实验成果

经过 OctoThinker 训练的 Llama 模型在 GSM8K 等基准测试中达到 Qwen 同系列模型的 95% 性能，显著缩小了模型家族间的 RL 适应差异。
开源的 70B token 数学推理语料库及 OctoThinker 模型家族，为后续研究提供了可复现的资源。

未来方向

将 Mid-training 范式扩展至科学推理、逻辑分析等领域。
优化推理深度与效率的平衡，避免冗余信息生成。

一句话总结：上海交大通过揭示 Llama 与 Qwen 的 RL 兼容性差异，提出 Mid-training 与 OctoThinker 方案，成功让“急性子”Llama 学会“深度思考”，为构建更智能、更可靠的 AI 推理系统开辟了新路径。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。