首页 > 快讯 > URPO框架由摩尔线程发布，推动大模型训练进入新时代，获AAAI 2026高度评价

URPO框架由摩尔线程发布，推动大模型训练进入新时代，获AAAI 2026高度评价

发布时间：2025-11-14 11:48:01 | 责任编辑：吴昊 | 浏览量：137 次

近日，摩尔线程的 AI 研究团队在国际顶级学术会议 AAAI2026上发布了其最新研究成果，提出了一种名为 URPO（统一奖励与策略优化）的创新框架。这项技术旨在简化大语言模型的训练过程，并突破其性能的瓶颈，为 AI 领域带来新的技术路径。
在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中，研究团队将传统的 “大模型训练” 方法进行了重塑。URPO 框架独特之处在于，它将 “指令遵循” 和 “奖励评判” 两种角色合二为一，让一个单一模型在训练阶段实现同步优化。这意味着模型不仅能听懂指令，还能自己打分，从而提升了训练的效率和效果。
URPO 框架在三个关键技术方面攻克了当前的挑战。首先是数据格式统一，研究团队成功地将不同类型的数据（如偏好数据、可验证推理数据和开放式指令数据）转化为适用于 GRPO 训练的统一信号格式。其次，通过自我奖励循环，模型在生成多个候选回答后，可以自主评分，将其结果用作 GRPO 训练的奖励信号，从而形成高效的自我改进循环。最后，协同进化机制通过混合处理三类数据，实现了模型生成能力与评判能力的双向提升。
实验结果显示，基于 Qwen2.5-7B 模型的 URPO 框架，在多个性能指标上均超越了依赖独立奖励模型的传统基线。例如，在 AlpacaEval 指令跟随榜单上得分提升至44.84，综合推理能力测试的平均分也从32.66提升至35.66。同时，该模型在 RewardBench 奖励模型评测中获得了85.15的高分，表现优于专用奖励模型的83.55分，充分展现了 URPO 的优越性。
值得一提的是，摩尔线程已经在其自主研发的计算卡上实现了 URPO 框架的高效运行，并完成了与主流强化学习框架 VERL 的深度适配。这一突破不仅标志着摩尔线程在大模型训练领域的领先地位，也为未来的 AI 发展指明了方向。

这是一篇关于摩尔线程推出URPO框架，助力大模型训练新纪元，AAAI 2026 盛赞的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：微软计划投入100亿美元于葡萄牙构建AI数据中心

下一篇：纳德拉表示，微软将目光投向长远发展，而非低利润的AI计算市场

URPO框架由摩尔线程发布，推动大模型训练进入新时代，获AAAI 2026高度评价

最新Ai信息

最新Ai工具

热门AI推荐