首页 > 快讯 > 字节跳动推出Seed-Thinking-v1.5:推理AI竞赛中的新力量

字节跳动推出Seed-Thinking-v1.5:推理AI竞赛中的新力量

发布时间：2025-04-14 09:32:01 | 责任编辑：字母汇 | 浏览量：85 次

字节跳动加入了快速发展的AI推理模型竞争，推出了专注于科学、技术、数学和工程（STEM）领域的新型大语言模型Seed-Thinking-v1.5。这款采用混合专家(MoE)架构的模型在多项基准测试中表现优异，甚至在某些指标上超越了行业巨头的产品。
推理AI竞赛始于2024年9月OpenAI的o1模型发布，而后在2025年1月DeepSeek R1的推出后真正加速。如今，主要AI企业都在竞相开发能够执行"思路链"推理的模型，以提供更全面、更合理的回答。Seed-Thinking-v1.5采用了流行的混合专家（MoE）架构，类似于Meta的Llama4和Mistral的Mixtral。该架构使模型能够在庞大的2000亿参数库中每次只使用200亿参数，大幅提高效率。
这款模型展现了令人印象深刻的能力:在AIME2024上获得86.7%的得分，在Codeforces上获得55.0%的pass@8分数，在GPQA科学基准测试中获得77.3%的得分。更令人瞩目的是，它在ARC-AGI基准测试中超越了Google的Gemini2.5Pro和OpenAI的o3-mini-high。在非推理任务中，Seed-Thinking-v1.5的胜率比DeepSeek R1高出8.0%，表明其性能优势不仅限于逻辑或数学密集型任务。
字节跳动在Seed-Thinking-v1.5的开发中采用了多项创新技术，包括精心策划的训练数据、先进的强化学习框架、双层奖励系统和高效的基础设施。他们使用40万个样本进行监督微调，采用自定义的演员-评论家（VAPO）和策略梯度(DAPO)框架解决强化学习训练中的不稳定性问题，创新性地使用"种子验证器"和"种子思维验证器"评估模型输出质量，并通过HybridFlow框架和流式部署系统(SRS)实现训练效率提升，据报道将强化学习周期速度提高3倍。
虽然Seed-Thinking-v1.5目前尚未开放下载或使用，其许可条款也未公布，但它的出现无疑加剧了推理AI领域的竞争，为强大、高效的大型语言模型设定了新标准。该项目是字节跳动Seed LLM系统团队合作的成果，由吴永辉领导，林海滨担任公开代表，团队计划继续完善强化学习技术并公开发布BeyondAIME等内部基准，以促进推理AI研究的更广泛进步。

字节跳动旗下的豆包团队于2025年4月11日发布了其最新推理模型Seed-Thinking-v1.5。以下是关于该模型的详细介绍：

模型架构与参数

Seed-Thinking-v1.5采用了混合专家（MoE）架构，总参数量为200亿，但在运行时仅激活其中的20亿参数。这种设计使其在保持强大推理能力的同时，大幅提高了计算效率。

性能表现

推理任务：Seed-Thinking-v1.5在多个权威基准测试中表现出色。在AIME2024测试中获得86.7分，在Codeforces评测中达到55.0分，在GPQA科学基准测试中获得77.3分，展现了其在STEM（科学、技术、工程和数学）领域以及编程方面的出色推理能力。
非推理任务：该模型在非推理任务上的胜率比DeepSeek R1高出8%，表明其具有更广泛的适用性。

技术创新

训练数据：推理模型主要依赖思维链（CoT）数据，该团队的研究表明，过多非思维链数据会削弱模型探索能力。
强化学习算法：团队采用了自定义的演员-评论家（VAPO）和策略梯度（DAPO）框架，解决了强化学习训练中的不稳定性问题。
基础设施：通过HybridFlow框架和流式部署系统（SRS），训练效率得到提升，据报道将强化学习周期速度提高了3倍。

未来展望

虽然Seed-Thinking-v1.5目前尚未开放下载或使用，其许可条款也未公布，但它的出现无疑加剧了推理AI领域的竞争，为强大、高效的大型语言模型设定了新标准。该项目是字节跳动Seed LLM系统团队合作的成果，团队计划继续完善强化学习技术并公开发布BeyondAIME等内部基准，以促进推理AI研究的更广泛进步。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。