首页 > 快讯 > URPO框架由摩尔线程发布,推动大模型训练进入新时代,获AAAI 2026高度评价

URPO框架由摩尔线程发布,推动大模型训练进入新时代,获AAAI 2026高度评价

发布时间:2025-11-14 11:48:01 | 责任编辑:吴昊 | 浏览量:8 次

近日,摩尔线程的 AI 研究团队在国际顶级学术会议 AAAI2026上发布了其最新研究成果,提出了一种名为 URPO(统一奖励与策略优化)的创新框架。这项技术旨在简化大语言模型的训练过程,并突破其性能的瓶颈,为 AI 领域带来新的技术路径。
在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,研究团队将传统的 “大模型训练” 方法进行了重塑。URPO 框架独特之处在于,它将 “指令遵循” 和 “奖励评判” 两种角色合二为一,让一个单一模型在训练阶段实现同步优化。这意味着模型不仅能听懂指令,还能自己打分,从而提升了训练的效率和效果。
URPO 框架在三个关键技术方面攻克了当前的挑战。首先是数据格式统一,研究团队成功地将不同类型的数据(如偏好数据、可验证推理数据和开放式指令数据)转化为适用于 GRPO 训练的统一信号格式。其次,通过自我奖励循环,模型在生成多个候选回答后,可以自主评分,将其结果用作 GRPO 训练的奖励信号,从而形成高效的自我改进循环。最后,协同进化机制通过混合处理三类数据,实现了模型生成能力与评判能力的双向提升。
实验结果显示,基于 Qwen2.5-7B 模型的 URPO 框架,在多个性能指标上均超越了依赖独立奖励模型的传统基线。例如,在 AlpacaEval 指令跟随榜单上得分提升至44.84,综合推理能力测试的平均分也从32.66提升至35.66。同时,该模型在 RewardBench 奖励模型评测中获得了85.15的高分,表现优于专用奖励模型的83.55分,充分展现了 URPO 的优越性。
值得一提的是,摩尔线程已经在其自主研发的计算卡上实现了 URPO 框架的高效运行,并完成了与主流强化学习框架 VERL 的深度适配。这一突破不仅标志着摩尔线程在大模型训练领域的领先地位,也为未来的 AI 发展指明了方向。

URPO框架由摩尔线程发布,推动大模型训练进入新时代,获AAAI 2026高度评价

这是一篇关于摩尔线程推出URPO框架,助力大模型训练新纪元,AAAI 2026 盛赞的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐