首页 > 快讯 > 阿里通义实验室发布FIPO算法，显著增强大模型推理性能

阿里通义实验室发布FIPO算法，显著增强大模型推理性能

发布时间：2026-04-08 08:13:07 | 责任编辑：张毅 | 浏览量：63 次

阿里通义实验室的 Qwen Pilot 团队近日推出了一种全新的算法 FIPO（Future-KL Influenced Policy Optimization），该算法旨在突破当前大模型在推理过程中面临的瓶颈问题。传统的强化学习方法(RLVR)在处理推理链中的每个 Token 时，往往无法区分出哪些 Token 对最终结果至关重要。因此，如何精准识别关键 Token 成为了一个亟待解决的难题。
FIPO 算法引入了 Future-KL 机制，专门奖励那些对后续推理有显著影响的 Token，从而解决了在纯 RL 训练中 “推理长度停滞” 的问题。在实际测试中，FIPO 在32B 规模的纯 RL 设置下，表现超越了 o1-mini 和 DeepSeek-Zero-MATH 等同规模的模型。
根据团队的研究结果，大多数 Token 在训练前后几乎没有变化，显示出强化学习的影响是极度稀疏的。团队发现，行业常用的评估指标如熵和 KL 散度，难以精准识别关键 Token 的变化。因此，他们引入了新的观察维度 —— 符号对数概率差（Δlog p），有效捕捉到优化的方向性。
在实验中，FIPO 算法在零基础模型 Qwen2.5-32B-Base 上进行测试，突破了推理长度的瓶颈，平均推理长度提升至10，000Token 以上。同时，该算法还实现了推理准确率的显著提升，证明了其在复杂数学推理中的潜力。
划重点:
🔍 FIPO 算法由阿里通义实验室推出，旨在提升大模型推理能力。
📈 该算法能够精准识别对推理有重要影响的 Token，突破推理长度瓶颈。
🧠 实验显示，FIPO 在复杂数学推理中的表现显著优于传统算法。

这是一篇关于阿里通义实验室推出 FIPO 算法，助力大模型推理能力大幅提升的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：米拉·乔沃维奇跨界AI圈！GitHub开源记忆宫殿系统MemPalace，创行业基准测试满分纪录

下一篇：美国医院“沙漠”地带每周健康咨询量达60万，OpenAI数据揭示

阿里通义实验室发布FIPO算法，显著增强大模型推理性能

最新Ai信息

最新Ai工具

热门AI推荐