首页 > 快讯 > 全新AI框架Agent Lightning由微软发布,旨在提升大型语言模型的强化学习训练

全新AI框架Agent Lightning由微软发布,旨在提升大型语言模型的强化学习训练

发布时间:2025-10-30 12:43:32 | 责任编辑:张毅 | 浏览量:57 次

微软近日发布了 Agent Lightning,这是一个开源框架,旨在通过强化学习(RL)优化多代理系统。Agent Lightning 可以在不改变现有代理架构的情况下,将真实代理行为转化为 RL 过渡,从而提升策略大规模语言模型(LLM)的性能。
Agent Lightning 将代理建模为一个决策过程,具体来说,它将代理形式化为部分可观测的马尔可夫决策过程。代理的观察为当前输入,行动为模型调用,而奖励则可以是终极奖励或中间奖励。该框架提取代理模型的调用记录,以及输入、输出和奖励信息,从而过滤掉多余的噪声,生成用于训练的干净过渡数据。
该框架采用 “训练代理解耦” 的方法,由 Lightning Server 进行训练和服务,并提供与 OpenAI 兼容的 API 接口,便于更新后的模型调用。而 Lightning Client 则在现有的代理运行时捕获调用记录,并将数据实时传回服务器。这一设计保持了工具、浏览器和其他依赖关系的紧密集成,同时将 GPU 训练放在服务器层。
Agent Lightning 支持两种追踪路径。默认路径使用 OpenTelemetry 进行数据收集,方便将代理的遥测信息传送至标准收集器。还有一种轻量级的嵌入式追踪器,适合不想部署 OpenTelemetry 的团队。最终,所有数据都存储在同一位置以供训练使用。
在实验方面,研究团队评估了三项任务,分别是文本转 SQL、检索增强生成和数学问答。文本转 SQL 使用 Spider 基准,涵盖超过10,000个问题和200个数据库。检索增强生成利用 MuSiQue 基准,建立在包含2100万文档的维基百科规模索引上。而数学问答则使用 Calc X 数据集,通过工具调用进行计算。每项任务的训练均显示出稳定的奖励提升。
论文:https://arxiv.org/abs/2508.03680v1
划重点:
🌟 Agent Lightning 是一个开源框架,支持在不重构现有系统的情况下优化多代理系统。
🚀 该框架将代理建模为部分可观测的马尔可夫决策过程,提取干净的训练过渡数据。
📈 实验显示,Agent Lightning 在文本转 SQL、检索增强生成和数学问答任务上均取得了显著的性能提升。

全新AI框架Agent Lightning由微软发布,旨在提升大型语言模型的强化学习训练

这是一篇关于微软推出 Agent Lightning:全新 AI 框架助力强化学习训练大规模语言模型的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐