腾讯发布WeChat-YATT开源大模型库,有效解决多模态训练关键挑战
发布时间:2025-08-19 14:49:39 | 责任编辑:吴昊 | 浏览量:8 次
腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT(Yet Another Transformer Trainer),内部项目代号为gCore。这一训练库专注于强化学习和多模态模型训练,致力于为开发者提供易扩展、简洁、高效、可靠的大模型训练解决方案。
WeChat-YATT通过定制化的并行计算策略,能够有效处理大尺寸模型、长序列输入和大数据集等复杂场景,成功解决了微信内部多个实际业务场景的关键痛点问题,显著提升了大模型训练效率。该工具为研究人员和开发者提供了灵活且可扩展的技术方案,有望推动多模态和强化学习领域的创新发展。
WeChat-YATT重点解决了大模型分布式训练过程中面临的两大核心技术瓶颈。
首先是多模态场景下的可扩展性瓶颈问题。随着图像、视频等多模态数据规模不断增长,传统架构中由单一控制器进行数据管理的方式容易成为通信和内存瓶颈,导致系统吞吐量受限,甚至引发训练流程异常中断。WeChat-YATT通过引入并行控制器(Parallel Controller)的并行管理机制,有效分散了系统压力,大幅提升了系统的可扩展性和稳定性,更好地应对多模态、大数据量的复杂应用场景。
其次是动态采样与生成式奖励计算下的效率短板。在需要频繁动态采样或生成式奖励计算的训练流程中,模型频繁切换和"长尾"任务容易产生大量额外开销,导致GPU算力无法充分利用,严重影响整体训练效率。WeChat-YATT通过部分共存策略和异步交互机制,大幅减轻了模型切换损耗和长尾任务影响,实现了训练过程中的高吞吐量和高资源利用率,更好地支撑大规模RLHF任务的高效迭代。
针对不同业务场景的需求,WeChat-YATT支持全员共存和部分共存两种资源放置模式,以最大化提升集群资源利用率。
全员共存模式采用串行调度机制,Actor Rollouts、GenRM(生成式奖励模型)与Train依次串行执行。每个角色完成任务后主动释放计算资源,系统随即加载下一个任务所需模型。该策略适用于绝大多数常规训练场景。值得注意的是,在每个阶段,相关组件均可独占全部GPU资源,这极大缩短了资源空闲"气泡"时间,显著提升总体训练吞吐量和效率。
部分共存模式下,Actor Rollouts与GenRM独立部署,并通过异步方式进行高效交互。Actor训练阶段占用全部GPU资源,在Rollouts生成阶段释放GPU资源并唤醒Actor Rollouts及GenRM两大组件协同工作。系统通过动态负载评估进行资源分配与均衡,当Rollouts生成完毕后,这两者释放资源,Actor随之重新加载到GPU上进入下一轮训练流程。部分共存模式特别适合Rollouts与GenRM需要高频交互、动态采样的复杂任务场景。
WeChat-YATT还具备多项技术特色。在内存利用方面,项目采用并行控制器架构,有效降低了单节点内存消耗,更适合多模态场景下的大模型训练,提升了系统扩展性和稳定性。在GenRM支持方面,针对生成式奖励模型场景实现了不同的资源放置策略,用户可根据具体场景选择最优的训练方案。
智能检查点策略是另一大亮点。WeChat-YATT支持异步Checkpoint保存,并针对微信业务场景特点,根据调度流程实现断点自动保存,进一步保障了训练安全性和高可用性。此外,系统在训练过程中实现了各个数据并行组间的负载均衡,有效减少资源空闲时间,显著提升整体训练吞吐量。
这一训练库的发布标志着腾讯在大模型技术基础设施建设方面取得重要进展,也为业界提供了处理复杂多模态训练场景的有效解决方案。
腾讯开源的 WeChat-YATT(Yet Another Transformer Trainer)大模型训练库,专注于强化学习和多模态模型训练,成功破解了多模态训练中的两大核心瓶颈:
1. 多模态场景下的可扩展性瓶颈
-
问题描述:传统架构中,SingleController 负责数据管理,容易成为通讯和内存的瓶颈,导致系统吞吐量受限,甚至训练流程中断。
-
解决方案:WeChat-YATT 引入 Parallel Controller 的并行管理机制,由多个 Controller 协同管理数据任务,有效分散压力,大幅提升系统的可扩展性和稳定性,更好地应对多模态、大数据量的复杂场景。
2. 动态采样与生成式奖励下的效率短板
-
问题描述:在需要频繁动态采样或生成式奖励计算的训练流程中,模型频繁切换和“长尾”任务容易引发大量额外开销,导致 GPU 算力无法充分利用,影响整体训练效率。
-
解决方案:WeChat-YATT 通过 部分共存策略 和 异步交互,大幅度减轻模型切换损耗和长尾任务影响,实现训练过程中的高吞吐量和高资源利用,更好地支撑大规模 RLHF(Reinforcement Learning from Human Feedback)任务的高效迭代。
项目特点与优势
-
高效内存利用:采用 Parallel Controller,降低单节点内存消耗,更适合多模态场景下的大模型训练。
-
智能 Checkpoint 策略:支持异步 Checkpoint 保存,实现断点自动保存,保障训练安全与高可用性。
-
负载均衡优化:实现数据并行组间的负载均衡,减少资源空闲时间,显著提升整体训练吞吐量。
资源放置模式
WeChat-YATT 支持两种资源放置模式,以最大化提升集群资源利用率:
-
全员共存模式:采用串行调度机制,Actor Rollouts、GenRM(Generative Reward Model)与 Train 依次串行执行,各阶段独占 GPU 资源,提升总体训练效率。
-
部分共存模式:Actor Rollouts 与 GenRM 独立部署,通过异步方式高效交互,适合高频交互、动态采样的任务场景。
实验效果
通过上述策略,WeChat-YATT 显著提升了微信内部多个实际业务场景的大模型训练效率,为研究人员和开发者提供了灵活且可扩展的解决方案,推动了多模态和强化学习领域的创新发展。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。