首页 > 快讯 > 增强 AI 决策技能：谷歌 DeepMind 使用强化学习进行微调

增强 AI 决策技能：谷歌 DeepMind 使用强化学习进行微调

发布时间：2025-05-20 17:35:22 | 责任编辑：吴昊 | 浏览量：229 次

《增强 AI 决策技能：谷歌 DeepMind 使用强化学习进行微调》相关软件官网

近期，谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作，开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调（RLFT）技术，旨在提升语言模型的决策能力。这项研究的重点在于，通过思维链的强化训练，解决了模型在决策过程中存在的一些关键问题。
随着大数据的应用，现有的语言模型已经展现出处理文本的超越能力，甚至能够在交互环境中做出基于知识的决策。然而，这些模型在实际决策时却常常出现 “纸上谈兵” 的问题，虽然能推导出正确的策略，却无法有效地执行。此外，它们还倾向于选择短期内能够获得更高回报的选项，同时较小的模型常常因为频率偏见而重复常见的动作。
传统的强化学习方法，比如 UCB 算法，虽然可以在一定程度上平衡探索与利用，但仍然无法完全解决模型推理与行动之间的脱节问题。为此，DeepMind 团队创新性地引入了强化学习微调技术，利用模型自生成的思维链作为训练信号。系统将评估每个推理步骤所对应的行动奖励，促使模型优先选择逻辑自洽且有效的行动方案。
在实际实施过程中，模型根据输入指令及历史行动与奖励生成包含推理过程和动作的序列。通过蒙特卡洛基线评估和广义优势估计进行优化，若采取无效动作，则会触发惩罚机制。同时，奖励塑造技术的引入不仅保证了输出的规范性，还保留了探索的空间。
在实验中，研究团队测试了多臂老虎机模型。在10臂的测试中，2B 参数模型的动作覆盖率提升了12个百分点。在20臂的测试中，虽然改善幅度较小，但频次偏见率从70% 降至35%，显示出研究的有效性。井字棋的实验结果显示，模型与随机对手对战的胜率提升了5倍，对阵最优蒙特卡洛树搜索代理时的平均回报从 -0.95归零。此外，27B 大模型生成正确推理的概率达到了87%，而未微调时仅有21% 能够执行最优动作。这一系列的数据充分证明了强化学习微调在缩小推理与行动之间差距方面的有效性。
划重点:
📊 研究采用强化学习微调（RLFT）技术提升 AI 语言模型的决策能力。
🧩 通过自生成思维链进行训练，模型的逻辑推理和行动选择得到有效提升。
🏆 实验显示，模型在多臂老虎机及井字棋中均显著改善了表现，缩小了推理与执行之间的差距。

谷歌 DeepMind 最近通过强化学习微调（Reinforcement Learning Fine-Tuning, RLFT）显著提升了 AI 的决策能力。以下是相关介绍：

技术原理

强化学习微调（RLFT）：DeepMind 的 RLFT 方法通过将模型自身生成的推理过程（chain-of-thought, CoT）作为训练信号，使模型能够根据自己的推理逻辑采取行动。
具体步骤：
1. 输入指令和历史动作与奖励信息。
2. 模型生成包含推理过程和建议动作的序列。
3. 使用蒙特卡洛基线和广义优势估计对推理过程中的动作进行评估，奖励合理且高价值的动作，惩罚无效动作。
4. 通过奖励塑形，确保输出结构化（例如，仅生成有效动作），同时保留探索空间。

实验结果

多臂老虎机测试：在 10 臂多臂老虎机测试中，2B 参数模型的动作覆盖率提高了 12 个百分点，频率偏差从 70% 降低到 35%，表明模型能够摆脱重复习惯。
井字棋测试：与随机对手对战时，模型的胜率提高了 5 倍；与最优蒙特卡洛树搜索（MCTS）代理对战时，平均奖励从 -0.95 提升到 0（达到竞争水平）。

意义与应用

解决“知行合一”问题：传统 AI 模型往往在推理方面表现出色，但在实际行动中却无法有效执行。RLFT 通过训练模型根据自身的推理逻辑采取行动，缩小了“知道”和“行动”之间的差距。
实际应用场景：在机器人控制、游戏、商业决策等领域，RLFT 可以使 AI 更可靠地将推理转化为实际操作。

未来展望

模型规模与性能：研究表明，参数规模更大的模型（如 27B 参数模型）从 RLFT 中受益更多，这表明计算规模对性能提升有重要影响。
多模态与多智能体系统：未来，RLFT 可能会与多模态模型（如处理文本和视觉信息的模型）结合，应用于多智能体系统或实时动态决策场景。

谷歌 DeepMind 的 RLFT 研究为 AI 决策能力的提升提供了新的思路，使 AI 不仅能够思考，还能更有效地行动。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。