首页 > 快讯 > 开源Step3-VL-10B：10B规模的“小能手”挑战200B巨模型性能巅峰

开源Step3-VL-10B：10B规模的“小能手”挑战200B巨模型性能巅峰

发布时间：2026-01-20 18:21:30 | 责任编辑：张毅 | 浏览量：247 次

阶跃星辰近日宣布开源其最新多模态视觉语言模型Step3-VL-10B。该模型仅凭10B 的参数规模，在多项基准测试中展现出了跨级别的竞技状态，成功解决了小参数量模型难以兼顾高智能水平的行业痛点。
在核心性能测试中，Step3-VL-10B不仅在视觉感知、逻辑推理和数学竞赛等维度达到了同规模 SOTA 水平，更实现了对规模大其10到20倍的开源模型（如 Qwen3-VL-Thinking235B 等）以及顶级闭源旗舰模型的媲美甚至超越。依托全参数端到端多模态联合预训练和大规模强化学习迭代，该模型在 AIME 等高难度数学竞赛测试中已步入世界第一梯队。
此次开源涵盖了 Base 和 Thinking 两个版本。得益于创新的并行协调推理机制（PaCoRe），模型在处理高精度 OCR、复杂计数及空间拓扑理解等任务时表现尤为稳健。这意味着原本依赖云端运行的复杂多模态推理能力，现在可以更低成本地部署在手机、电脑等端侧设备上，大幅提升了端侧 Agent 的交互效率。
项目主页:https://stepfun-ai.github.io/Step3-VL-10B/
论文链接:https://arxiv.org/abs/2601.09668
HuggingFace:https://huggingface.co/collections/stepfun-ai/step3-vl-10b
ModelScope:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B
划重点:
🚀 小参数跨级反超:Step3-VL-10B以10B 规模挑战并超越了200B 级的巨量模型，实现了性能与规模的极致杠杆比。
🧠 深层逻辑与感知:引入 PaCoRe 机制及大规模强化学习，在竞赛级数学、复杂 GUI 感知及3D 空间推理等领域达到世界顶尖水平。
📱 端侧智能下沉:支持高性能多模态能力在低算力设备运行，为手机和工业嵌入式设备的“主动理解与交互”提供了强力底座。

这是一篇关于10B 级“小核弹”:阶跃星辰开源 Step3-VL-10B，性能跨级挑战200B 大模型的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：百度AI集大成，文心一言月活跃用户达2亿里程碑

下一篇：安娜档案馆秘密联系英伟达，疑似助力其利用非法数据进行AI培训

开源Step3-VL-10B：10B规模的“小能手”挑战200B巨模型性能巅峰

最新Ai信息

最新Ai工具

热门AI推荐