首页 > 快讯 > 字节跳动发布仅含20B参数的Seed1.5-VL模型，跨38任务达成顶尖表现

字节跳动发布仅含20B参数的Seed1.5-VL模型，跨38任务达成顶尖表现

发布时间：2025-05-14 15:17:52 | 责任编辑：吴昊 | 浏览量：672 次

在上海举办的火山引擎 FORCE LINK AI 创新巡展上，字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力，成为此次活动的焦点，吸引了众多业界专家和开发者的关注。
Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。与之前的版本相比，Seed1.5-VL 在视觉定位和推理的速度与准确性上有了显著提升。此外，新增的视频理解和多模态智能体功能，使其在处理复杂任务时表现更加出色。
超高性能与低成本优势
尽管 Seed1.5-VL 的激活参数仅为20B，但其性能已经达到了与 Gemini2.5Pro 相当的水平。在60个公开评测基准中，Seed1.5-VL 在38个任务上取得了 SOTA（state-of-the-art）表现，尤其是在视频理解、视觉推理和多模态智能体能力方面，均处于行业领先地位。
在推理成本方面，Seed1.5-VL 也表现出色，其推理输入价格为每千 tokens 仅0.003元，输出价格为每千 tokens 仅0.009元，极具性价比。
便捷的 API 接入
目前，Seed1.5-VL 已经在火山引擎全面开放 API，开发者只需登录后选择 Doubao-1.5-thinking-vision-pro，即可快速调用其能力，构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。
为验证 Seed1.5-VL 的实际性能，记者进行了多项测试。通过上传一张货架图片，Seed1.5-VL 能够迅速识别出特定产品并计算其价格。在复杂的公务员图形推理题目中，Seed1.5-VL 也显示出了其强大的推理能力，能够在短时间内捕捉并推导出其中的规律，完成难度较大的逻辑任务。
Seed1.5-VL 作为 Seed 系列最新一代多模态模型，经过在超过3T token 的多模态数据上进行预训练，展现出在图像问答、图表理解、视觉推理等多个任务上的卓越表现。该模型由三个核心组件构成，包括视觉编码模块 SeedViT、用于视觉特征投影的多层感知机（MLP）适配器以及基于 MoE 架构的大语言模型 Seed1.5-LLM。
GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL
https://seed.bytedance.com/zh/tech/seed1_5_vl

字节跳动于2025年5月13日正式发布了其最新的视觉-语言多模态模型Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力，在60个公开评测基准中，有38个任务上取得了最新的最优性能（State-of-the-Art，SOTA）。Seed1.5-VL的显著特点是其高效的架构设计，仅使用了20B激活参数，但性能却可与Google的Gemini2.5Pro相媲美。

模型架构

Seed1.5-VL由以下三个核心组件构成：

SeedViT：一个5.32亿参数的视觉编码器，用于对图像和视频进行编码，能够处理任意长宽比的图像输入。
MLP适配器：将视觉特征投射为多模态token。
Seed1.5-LLM：一个基于混合专家（MoE）架构的大语言模型，激活参数规模为20B，专注于处理融合后的多模态输入并执行推理。

此外，Seed1.5-VL在视频处理方面采用了动态帧分辨率采样策略，能够根据需要动态调整采样帧率和分辨率，并在每帧图像之前引入时间戳标记以增强时间信息感知能力。

性能表现

Seed1.5-VL在多个领域表现出色，包括：

视觉推理：在视觉谜题（如Rebus）等复杂推理任务中表现出色。
视频理解：在19个视频基准测试中赢得了14项。
多模态智能体能力：在7个GUI（图形用户界面）任务中取得了SOTA结果。
OCR和图表理解：能够准确识别和理解图像中的文字和图表。

成本与应用

Seed1.5-VL不仅性能强大，还具有显著的推理成本优势。其推理输入价格为每千tokens仅0.003元，输出价格为每千tokens仅0.009元。目前，Seed1.5-VL已在火山引擎全面开放API，开发者可以快速调用其能力，构建AI视觉助手、巡检系统、交互Agent或下一代智能摄像头。

挑战与展望

尽管Seed1.5-VL在多模态理解和推理方面取得了显著进展，但在一些细粒度视觉感知任务上仍面临挑战，例如在处理复杂空间关系、相似颜色或部分遮挡的图像时，模型的准确性有待提高。此外，在高级推理任务中，模型有时会做出未经支持的假设或不完整的响应。不过，Seed1.5-VL的发布无疑标志着字节跳动在多模态技术领域的持续进步。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。