首页 > 快讯 > 新模型训练效能飙升至100倍！Thinking Machine发布“在线策略蒸馏”，获前OpenAI首席技术官高度认可

新模型训练效能飙升至100倍！Thinking Machine发布“在线策略蒸馏”，获前OpenAI首席技术官高度认可

发布时间：2025-10-28 11:39:50 | 责任编辑：张毅 | 浏览量：87 次

近日，AI新锐团队Thinking Machine发布突破性训练方法——在线策略蒸馏（On-Policy Distillation），让小模型在特定任务上的训练效率提升高达50至100倍。该成果一经公布，即获前OpenAI首席技术官Mira Murati亲自转发，引发学界与工业界高度关注。
传统AI训练长期面临两难:强化学习让模型在试错中自主探索，灵活但低效;监督微调直接提供标准答案，高效却僵化。而在线策略蒸馏巧妙融合二者——如同为学生模型配备一位“实时教练”:学生在自主生成内容的同时，由强大教师模型对其每一步输出进行动态评分与引导，通过最小化两者之间的KL散度，实现精准、稳定的知识迁移。
这一机制不仅避免了传统蒸馏中“只学结果、不学过程”的弊端，还有效防止模型“走捷径”或过拟合，显著提升泛化能力。
在数学推理任务中，研究团队仅用原强化学习方法1/7到1/10的训练步数，就让8B小模型达到接近32B大模型的性能水平，整体计算成本降低高达两个数量级。这意味着，资源有限的中小企业或研究团队，也能高效训练出媲美巨头的专业模型。
更关键的是，该方法成功破解了企业AI落地中的“灾难性遗忘”难题。在一项企业助理实验中，模型在学习新业务知识的同时，完整保留了原有对话与工具调用能力——这为持续迭代的行业AI系统提供了可行路径。
该研究由Kevin Lu主导，他曾在OpenAI领导多个关键项目，如今作为Thinking Machine核心成员，将大模型训练的前沿经验反哺于高效小模型生态。其团队认为，在AI走向垂直化、场景化的今天，“小而专”的模型才是商业落地的主力，而在线策略蒸馏正是打通这一路径的关键引擎。
随着算力瓶颈日益凸显，行业正从“唯大模型论”转向“高效智能”新范式。Thinking Machine的这项突破，不仅大幅降低AI开发门槛，更预示着一个属于高性价比专业模型的时代正在加速到来。
论文:https://thinkingmachines.ai/blog/on-policy-distillation/

这是一篇关于小模型训练效率狂飙100倍！Thinking Machine推“在线策略蒸馏”，OpenAI前CTO亲自点赞的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Mercor 融资3.5亿美元，利用行业转变增强AI数据标注服务

下一篇： Nephrogen 探索基因疗法与AI融合，以图改革肾脏疾病治疗

新模型训练效能飙升至100倍！Thinking Machine发布“在线策略蒸馏”，获前OpenAI首席技术官高度认可

最新Ai信息

最新Ai工具

热门AI推荐