腾讯推出无需训练的优化方案:以120元成本达到等同于7万元微调的性能
发布时间:2025-10-15 17:36:27 | 责任编辑:吴昊 | 浏览量:6 次
腾讯AI实验室近期发布了一种名为"无训练组相对策略优化"(Training-Free GRPO)的新型模型优化技术。这一方法通过外部知识库更新替代传统参数微调,在大幅降低训练成本的同时,实现了与昂贵微调方案相当的性能提升。
该技术的核心创新在于将经验知识转化为token级别的先验信息,使大模型在参数完全冻结的状态下完成性能优化。腾讯研究团队在DeepSeek-V3.1-Terminus模型上进行的实验显示,这种方法在数学推理和网络搜索等任务中均取得了显著效果。
从技术实现角度看,传统大语言模型在处理需要外部工具调用的复杂任务时常常表现欠佳。而Training-Free GRPO通过保持模型主体参数不变,仅动态维护一个外部经验知识库的方式来提升能力。这种设计不仅大幅削减了计算资源消耗,还增强了模型的跨领域泛化能力。
实验数据具体体现了这一方法的有效性。在数学竞赛级测试AIME24和AIME25中,经过Training-Free GRPO优化的DeepSeek-V3.1-Terminus模型准确率分别从80%和67.9%提升至82.7%和73.3%。更关键的是,这一提升仅使用了100个跨域训练样本,而传统强化学习方法通常需要数千个样本才能达到类似效果,后者的成本往往高达数万美元。
在网络搜索任务的测试中,该方法同样表现出色,模型的Pass@1指标从63.2%提升至67.8%。这一系列测试结果表明,Training-Free GRPO在保持低成本投入的前提下,能够在多种任务类型中实现稳定的性能改善。
从成本对比来看,官方数据显示使用Training-Free GRPO优化一个模型仅需约120元人民币,而传统的参数微调方案通常需要投入7万元左右的计算资源。这一成本差距主要源于该方法无需进行梯度回传和参数更新等计算密集型操作。
这项技术的发布为AI模型优化提供了新的思路方向。特别是对于资源受限的中小企业和研究机构而言,这种低成本高效率的优化方案降低了大模型应用的门槛。不过需要注意的是,该方法的适用范围和在更多场景下的表现还有待进一步验证,当前公布的测试数据主要集中在数学推理和信息检索等特定任务上。
论文地址:https://arxiv.org/abs/2510.08191
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。