首页 > 快讯 > NVIDIA 介绍 Orchestrator-8B:一款提升工具效率与模型选择的先进强化学习控制器

NVIDIA 介绍 Orchestrator-8B:一款提升工具效率与模型选择的先进强化学习控制器

发布时间:2025-12-01 18:10:43 | 责任编辑:张毅 | 浏览量:8 次

NVIDIA 最近推出了一种新方法 ——ToolOrchestra,旨在提升 AI 系统选择合适模型和工具的能力,避免传统的单一大型模型依赖。该方法通过训练一个名为 Orchestrator-8B 的小型语言模型,作为多工具使用代理的 “大脑”,实现更高效的任务处理。
目前大多数 AI 代理使用单一大型模型,例如 GPT-5,根据提示选择工具并完成任务。然而,研究发现,这种方法容易导致模型在决策时偏向于使用自身,造成资源浪费。为此,ToolOrchestra 设计了一种专门的控制模型 Orchestrator-8B,利用强化学习来优化工具选择。
Orchestrator-8B 是一个具有8亿参数的解码器,仅使用 Transformer 结构,通过微调 Qwen3-8B 模型而成。其工作流程分为三个主要步骤:首先,模型解析用户指令及可选的自然语言偏好,例如优先考虑低延迟或避免网络搜索;接着,生成推理过程并计划行动;最后,从可用工具中选择,并以统一的 JSON 格式发出工具调用。这一过程会持续进行,直到任务完成或达到50个步骤的上限。
ToolOrchestra 的强化学习设计包括多个奖励机制,以确保任务的高效完成。具体来说,模型的奖励由三个部分组成:任务成功的二元奖励、效率奖励(针对成本和时间)以及用户偏好奖励。这些因素结合起来,帮助优化策略,使 Orchestrator-8B 在选择和使用工具时更为灵活。
在一系列基准测试中,Orchestrator-8B 表现优异。例如,在 “人类最后的考试” 中,其准确率达到37.1%,高于 GPT-5的35.1%。在效率方面,Orchestrator-8B 的平均成本仅为0.092美元,时间为8.2分钟,远低于 GPT-5的0.302美元和19.8分钟。这表明,Orchestrator-8B 在资源利用和任务处理上表现更佳,适合关注效率和成本的团队。
NVIDIA 的 ToolOrchestra 为复合 AI 系统的构建迈出了重要一步,通过训练特定的路由策略,显著提升了任务处理的效率和准确性。
论文:https://arxiv.org/pdf/2511.21689
划重点:
🧠 Orchestrator-8B 是 NVIDIA 推出的一个8亿参数的小型控制模型,旨在优化多工具使用的效率。
💡 通过强化学习,Orchestrator-8B 能够更灵活地选择和调用工具,减少资源浪费。
📊 在多个基准测试中,Orchestrator-8B 在准确性和效率方面均优于传统的大型模型,如 GPT-5。

NVIDIA 介绍 Orchestrator-8B:一款提升工具效率与模型选择的先进强化学习控制器

这是一篇关于NVIDIA 推出 Orchestrator-8B:高效工具和模型选择的强化学习控制器的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐