首页 > 快讯 > Mira Murati的革新“在线策略蒸馏”引领AI训练革新,成本骤减90%,8B模型表现胜过32B?

Mira Murati的革新“在线策略蒸馏”引领AI训练革新,成本骤减90%,8B模型表现胜过32B?

发布时间:2025-10-30 12:35:43 | 责任编辑:吴昊 | 浏览量:11 次

当大模型军备竞赛让算力成本高不可攀,前OpenAI首席技术官Mira Murati领衔的Thinking Machines Lab,正用一项名为“在线策略蒸馏”(On-Policy Distillation)的突破性技术,为行业按下“重启键”。最新研究显示:仅80亿参数的小模型,经此方法训练后,性能可达32B大模型的70%,而训练成本骤降90%,效率提升50至100倍——这意味着,中小企业甚至个人开发者,也能以极低成本训练出媲美巨头的专用AI。
传统强化学习(RL)训练动辄需数万步迭代与海量算力。以数学推理任务AIME'24为例,纯RL方法耗费17,920个GPU小时,准确率仅68%;而采用在线策略蒸馏的Qwen3-8B模型,仅150步训练即达70%准确率,计算开销几乎可忽略。
其核心在于“每token密集反馈”机制:不同于RL仅在回合结束给予稀疏奖励,在线蒸馏让教师模型对学生生成的每一个token实时评分,提供连续、精准的指导信号。这不仅加速收敛,更有效防止长序列训练中的“策略漂移”,让小模型在有限资源下稳定输出高质量结果。
AI模型在注入新知识时常“忘本”——实验显示,某模型经内部文档微调后,指令遵循能力从85%暴跌至45%。而在线策略蒸馏通过实时轨迹采样+教师逐步校正,在保留41%新知识的同时,将原有能力迅速恢复至83%,远超传统微调或离线蒸馏。
这一特性使其特别适合企业场景:模型可动态学习业务新规、产品文档,而不丢失基础对话、工具调用等核心能力,真正实现“持续进化”。
该方法实现极为轻量,仅需四步闭环:
部署教师模型(如32B大模型)作为监督源;
学生模型生成响应轨迹;
教师计算每个token的对数概率;
以反向KL散度为损失,优化学生参数。
无需复杂基础设施,兼容现有蒸馏框架,即可实现“廉价而准确”的性能跃迁。论文指出,该技术可无缝扩展至代码生成、多模态推理等任务,为“教师-学生”协同训练开辟新路径。
作为OpenAI前CTO,Murati将大模型训练的实战经验反哺于高效小模型生态。在AI安全与对齐日益重要的今天,在线策略蒸馏不仅提升效率,更通过可控的知识迁移,增强模型行为的可预测性。
行业专家预测,该技术将极大推动开源模型与边缘AI的发展——当8B模型能胜任32B任务,手机、IoT设备乃至本地服务器,都将成为高性能AI的载体。智能,正从“云端垄断”走向“人人可及”。
这场由Murati掀起的训练革命,或许正是AI从“巨头游戏”迈向“普惠工具”的转折点。当小模型也能“聪明”如大模型,真正的智能民主化时代,才刚刚开始。

Mira Murati的革新“在线策略蒸馏”引领AI训练革新,成本骤减90%,8B模型表现胜过32B?

这是一篇关于8B模型碾压32B?Mira Murati新作“在线策略蒸馏”引爆AI训练革命,成本直降90%!的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐