字节跳动推出Seed-Thinking-v1.5:推理AI竞赛中的新力量
发布时间:2025-04-14 09:32:01 | 责任编辑:字母汇 | 浏览量:15 次
字节跳动加入了快速发展的AI推理模型竞争,推出了专注于科学、技术、数学和工程(STEM)领域的新型大语言模型Seed-Thinking-v1.5。这款采用混合专家(MoE)架构的模型在多项基准测试中表现优异,甚至在某些指标上超越了行业巨头的产品。
推理AI竞赛始于2024年9月OpenAI的o1模型发布,而后在2025年1月DeepSeek R1的推出后真正加速。如今,主要AI企业都在竞相开发能够执行"思路链"推理的模型,以提供更全面、更合理的回答。Seed-Thinking-v1.5采用了流行的混合专家(MoE)架构,类似于Meta的Llama4和Mistral的Mixtral。该架构使模型能够在庞大的2000亿参数库中每次只使用200亿参数,大幅提高效率。
这款模型展现了令人印象深刻的能力:在AIME2024上获得86.7%的得分,在Codeforces上获得55.0%的pass@8分数,在GPQA科学基准测试中获得77.3%的得分。更令人瞩目的是,它在ARC-AGI基准测试中超越了Google的Gemini2.5Pro和OpenAI的o3-mini-high。在非推理任务中,Seed-Thinking-v1.5的胜率比DeepSeek R1高出8.0%,表明其性能优势不仅限于逻辑或数学密集型任务。
字节跳动在Seed-Thinking-v1.5的开发中采用了多项创新技术,包括精心策划的训练数据、先进的强化学习框架、双层奖励系统和高效的基础设施。他们使用40万个样本进行监督微调,采用自定义的演员-评论家(VAPO)和策略梯度(DAPO)框架解决强化学习训练中的不稳定性问题,创新性地使用"种子验证器"和"种子思维验证器"评估模型输出质量,并通过HybridFlow框架和流式部署系统(SRS)实现训练效率提升,据报道将强化学习周期速度提高3倍。
虽然Seed-Thinking-v1.5目前尚未开放下载或使用,其许可条款也未公布,但它的出现无疑加剧了推理AI领域的竞争,为强大、高效的大型语言模型设定了新标准。该项目是字节跳动Seed LLM系统团队合作的成果,由吴永辉领导,林海滨担任公开代表,团队计划继续完善强化学习技术并公开发布BeyondAIME等内部基准,以促进推理AI研究的更广泛进步。
字节跳动旗下的豆包团队于2025年4月11日发布了其最新推理模型Seed-Thinking-v1.5。以下是关于该模型的详细介绍:
模型架构与参数
Seed-Thinking-v1.5采用了混合专家(MoE)架构,总参数量为200亿,但在运行时仅激活其中的20亿参数。这种设计使其在保持强大推理能力的同时,大幅提高了计算效率。
性能表现
-
推理任务:Seed-Thinking-v1.5在多个权威基准测试中表现出色。在AIME2024测试中获得86.7分,在Codeforces评测中达到55.0分,在GPQA科学基准测试中获得77.3分,展现了其在STEM(科学、技术、工程和数学)领域以及编程方面的出色推理能力。
-
非推理任务:该模型在非推理任务上的胜率比DeepSeek R1高出8%,表明其具有更广泛的适用性。
技术创新
-
训练数据:推理模型主要依赖思维链(CoT)数据,该团队的研究表明,过多非思维链数据会削弱模型探索能力。
-
强化学习算法:团队采用了自定义的演员-评论家(VAPO)和策略梯度(DAPO)框架,解决了强化学习训练中的不稳定性问题。
-
基础设施:通过HybridFlow框架和流式部署系统(SRS),训练效率得到提升,据报道将强化学习周期速度提高了3倍。
未来展望
虽然Seed-Thinking-v1.5目前尚未开放下载或使用,其许可条款也未公布,但它的出现无疑加剧了推理AI领域的竞争,为强大、高效的大型语言模型设定了新标准。该项目是字节跳动Seed LLM系统团队合作的成果,团队计划继续完善强化学习技术并公开发布BeyondAIME等内部基准,以促进推理AI研究的更广泛进步。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。