开源大语言模型Seed-OSS由字节跳动推出,旨在支持开发者和研究者
发布时间:2025-08-21 11:13:07 | 责任编辑:张毅 | 浏览量:4 次
2025年8月20日,字节跳动的 Seed 团队宣布推出一系列开源大型语言模型 ——Seed-OSS。该系列模型旨在满足国际化(i18n)应用场景的需求,专注于强大的长文本理解、推理能力和灵活的开发者友好特性。
Seed-OSS 系列模型基于流行的因果语言模型架构,采用了 RoPE、GQA 注意力机制、RMSNorm 和 SwiGLU 激活函数。最新发布的 Seed-OSS-36B 模型拥有360亿个参数,具备512K 的长上下文处理能力。尽管该模型仅使用了12万亿个训练数据,其在多个流行的基准测试中表现出色。
Seed-OSS 模型系列包括两种版本:带有合成指令数据的 Seed-OSS-36B-Base 和不带合成指令数据的 Seed-OSS-36B-Base-woSyn。这种设计不仅为开发者提供了高性能的基础模型,还为研究者提供了更为多样化的选择,以确保研究的有效性不受合成数据的影响。
该模型的关键特性之一是 “思考预算” 的灵活控制,允许用户根据需要动态调整推理的长度。这种能力在实际应用场景中大大提高了推理的效率。此外,Seed-OSS 特别优化了推理任务,确保在保持良好一般能力的同时,推理能力也得到了增强。
在发布会上,Seed 团队强调,Seed-OSS 模型不仅适用于学术研究,还可广泛应用于各类开发任务,例如工具使用和问题解决等代理智能任务。模型的训练和评估结果表明,Seed-OSS 在知识问答、数学推理、编程等任务中的表现达到了开源领域的领先水平。
对于希望参与的开发者,Seed 团队提供了详细的快速入门指南。用户只需通过 pip 安装相关依赖,即可轻松下载和使用 Seed-OSS 模型。此外,团队还支持多种量化方式以降低内存使用,提高模型的运行效率。
总之,Seed-OSS 的发布为开源社区带来了强有力的支持。字节跳动 Seed 团队期待通过这一系列高性能的语言模型,促进人工智能领域的创新与发展,为开发者和研究者提供更为广泛的工具与资源。
地址:https://github.com/ByteDance-Seed/seed-oss
2025 年 8 月 20 日,字节跳动 Seed 团队正式在 Hugging Face 与 GitHub 同步发布了开源大语言模型系列 Seed-OSS,核心亮点如下:
-
模型规格
-
360 亿稠密参数,共 64 层,15.5 万词表
-
原生支持 512 k tokens 超长上下文(≈ 1600 页文本),是目前开源社区最长之一
-
-
三个版本
-
Seed-OSS-36B-Base(含合成数据)
-
Seed-OSS-36B-Base(无合成数据,便于继续预训练)
-
Seed-OSS-36B-Instruct(指令微调版)
全部以 Apache-2.0 许可证 发布,可自由商用、修改与再分发
-
-
性能与基准
-
数学推理:AIME24 91.7 %(开源 SOTA)
-
代码生成:LiveCodeBench v6 67.4 分(开源 SOTA)
-
长文本理解:RULER 128 k 测试 94.6 分(开源 SOTA)
-
通用能力:MMLU-Pro 65.1 分,MATH 81.7 分
-
-
开发者 & 研究者友好特性
-
“推理预算”机制:可在推理前指定 token 上限,灵活控制成本与深度(0 表示直接回答)
-
双版本 Base 模型:为学术社区提供含/不含合成指令数据的选择,减少研究偏差
-
量化与部署:官方给出 4/8-bit 量化示例,单张 RTX 4090 24 GB 即可跑 4 k 上下文;vLLM 多卡脚本亦已开源
-
-
获取方式
Seed-OSS 的发布标志着字节跳动正式加入全球开源大模型竞赛,为开发者、企业及研究者提供了高性能、可商用且易部署的新选择。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。