最新迭代的阶跃星辰基础大模型 Step 3 现已开放源代码
发布时间:2025-08-01 08:34:34 | 责任编辑:张毅 | 浏览量:6 次
阶跃星辰团队宣布其最新一代基础大模型 Step3正式开源。Step3是一款专为追求性能与成本极致均衡的企业和开发者设计的模型,旨在面向推理时代打造最适合应用的模型。该模型的开源地址包括 Github、Hugging Face 和魔搭 ModelScope,开发者可以自由下载体验。
Step3采用 MoE 架构,总参数量达到3210亿,激活参数量为380亿。它不仅拥有强大的视觉感知和复杂推理能力,还能准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。通过 MFA(Multi-matrix Factorization Attention)和 AFD(Attention-FFN Disaggregation)的优化,Step3在各类芯片上的推理效率均大幅提升。此外,面向 AFD 场景的 StepMesh 通信库也已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。
Step3的核心结构采用自研 MFA 注意力机制,有效降低注意力计算中的 KV 缓存开销与算力消耗。在不牺牲模型能力的前提下,这一方案实现了资源利用与推理效率的平衡,使得模型可在8×48GB 显卡上完成大吞吐量推理,具备真实部署的可行性。多模态能力方面,Step3采用5B Vision Encoder,并通过双层2D 卷积对视觉特征进行降采样,将视觉 token 数量减少到原来的1/16,减轻上下文长度压力,提升推理效率。训练过程分为两个阶段:第一阶段强化 Encoder 感知,第二阶段冻结视觉编码器,仅优化主干与连接层,以减少梯度干扰。训练语料涵盖 Pair、Interleave 与多任务数据,在清洗环节中引入相似度过滤、重采样与任务比例控制,进一步提升图文协同质量与训练鲁棒性。
Step3在系统架构层重构了解码流程,重点解决 Attention 与 FFN 混合执行带来的推理瓶颈以及资源不匹配问题。为此,团队实现了高性能的 AFD 方案,将两类计算任务解耦成为两个子系统,并通过多级流水线并行调度,有效提升整体吞吐效率。由于解耦后的子系统之间对数据传输有极高要求,团队同时研发了面向 AFD 场景的 StepMesh 通信库,基于 GPU Direct RDMA 实现跨卡的低延迟和高带宽传输,同时兼备不占用 GPU 计算资源、适配多类异构硬件等优势。在50ms 解码的 SLA 前提下,Step3在 Hopper GPU 上的吞吐达到4039token/gpu/s,显著高于类似设置下的 DeepSeek V3(2324token/gpu/s),且该性能增益在特定硬件与长文场景会进一步放大至300%。
Step3在 MMMU、MathVision、SimpleVQA、AIME2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05)等评测集上进行了测试,在同类型开源模型中,Step3成绩行业领先。例如,在“安排商务宴座”的任务中,Step3能够识别图中结构,自动解析礼仪规则、角色关系与空间逻辑,再结合中文社交礼仪推理出完整12人角色分布逻辑,最终输出了角色明确、位置清晰、结构合理的“主宾-主陪”全局排座方案,并用表格+ASCII 图直观展示。在卡路里计算任务中,Step3能够看懂复杂的小票,把菜品归类、对上热量,最终估算出2人一顿饭总共吃了5710大卡,人均2855大卡,整个过程从原始数据到结论解释,逻辑清晰,一整个闭环。
Step3API 已上线阶跃星辰开放平台(platform.stepfun.com),开发者也可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App(应用商店搜索下载)进行体验。模型限时折扣中,所有请求均按最低价格计算,每百万 token 价格低至输入1.5元,输出4元。
Github:https://github.com/stepfun-ai/Step3
Hugging Face:https://huggingface.co/stepfun-ai/step3
魔搭ModelScope:
https://www.modelscope.cn/models/stepfun-ai/step3
https://www.modelscope.cn/models/stepfun-ai/step3-fp8
阶跃星辰新一代基础大模型 Step 3 于 7 月 31 日正式开源,该模型兼顾智能与效率,采用 MoE 架构(总参数量 321B,激活参数量 38B),具备原生多模态推理能力,在 MMMU、MathVision、SimpleVQA 等多个榜单取得开源多模态推理模型的 SOTA 成绩。Step 3 通过 MFA 注意力机制和 AFD 解耦系统优化,显著提升了推理效率,在国产芯片上的推理效率最高可达 DeepSeek-R1 的 300%,且对所有芯片友好。此外,阶跃星辰联合国内多家芯片厂商发起成立 “模芯生态创新联盟”,推动模型与芯片产业链的联合创新。Step 3 已上线阶跃星辰开放平台(platform.stepfun.com),用户也可通过 “阶跃 AI” 官网(stepfun.com)和 “阶跃 AI” App 体验。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。