首页 > 快讯 > 字节跳动发布仅含20B参数的Seed1.5-VL模型,跨38任务达成顶尖表现

字节跳动发布仅含20B参数的Seed1.5-VL模型,跨38任务达成顶尖表现

发布时间:2025-05-14 15:17:52 | 责任编辑:吴昊 | 浏览量:6 次

在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。
Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。与之前的版本相比,Seed1.5-VL 在视觉定位和推理的速度与准确性上有了显著提升。此外,新增的视频理解和多模态智能体功能,使其在处理复杂任务时表现更加出色。
超高性能与低成本优势
尽管 Seed1.5-VL 的激活参数仅为20B,但其性能已经达到了与 Gemini2.5Pro 相当的水平。在60个公开评测基准中,Seed1.5-VL 在38个任务上取得了 SOTA(state-of-the-art)表现,尤其是在视频理解、视觉推理和多模态智能体能力方面,均处于行业领先地位。
在推理成本方面,Seed1.5-VL 也表现出色,其推理输入价格为每千 tokens 仅0.003元,输出价格为每千 tokens 仅0.009元,极具性价比。
便捷的 API 接入
目前,Seed1.5-VL 已经在火山引擎全面开放 API,开发者只需登录后选择 Doubao-1.5-thinking-vision-pro,即可快速调用其能力,构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。
为验证 Seed1.5-VL 的实际性能,记者进行了多项测试。通过上传一张货架图片,Seed1.5-VL 能够迅速识别出特定产品并计算其价格。在复杂的公务员图形推理题目中,Seed1.5-VL 也显示出了其强大的推理能力,能够在短时间内捕捉并推导出其中的规律,完成难度较大的逻辑任务。
Seed1.5-VL 作为 Seed 系列最新一代多模态模型,经过在超过3T token 的多模态数据上进行预训练,展现出在图像问答、图表理解、视觉推理等多个任务上的卓越表现。该模型由三个核心组件构成,包括视觉编码模块 SeedViT、用于视觉特征投影的多层感知机(MLP)适配器以及基于 MoE 架构的大语言模型 Seed1.5-LLM。
GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL
https://seed.bytedance.com/zh/tech/seed1_5_vl

字节跳动发布仅含20B参数的Seed1.5-VL模型,跨38任务达成顶尖表现

字节跳动于2025年5月13日正式发布了其最新的视觉-语言多模态模型Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力,在60个公开评测基准中,有38个任务上取得了最新的最优性能(State-of-the-Art,SOTA)。Seed1.5-VL的显著特点是其高效的架构设计,仅使用了20B激活参数,但性能却可与Google的Gemini2.5Pro相媲美。

模型架构

Seed1.5-VL由以下三个核心组件构成:

  1. SeedViT:一个5.32亿参数的视觉编码器,用于对图像和视频进行编码,能够处理任意长宽比的图像输入。

  2. MLP适配器:将视觉特征投射为多模态token。

  3. Seed1.5-LLM:一个基于混合专家(MoE)架构的大语言模型,激活参数规模为20B,专注于处理融合后的多模态输入并执行推理。

此外,Seed1.5-VL在视频处理方面采用了动态帧分辨率采样策略,能够根据需要动态调整采样帧率和分辨率,并在每帧图像之前引入时间戳标记以增强时间信息感知能力。

性能表现

Seed1.5-VL在多个领域表现出色,包括:

  • 视觉推理:在视觉谜题(如Rebus)等复杂推理任务中表现出色。

  • 视频理解:在19个视频基准测试中赢得了14项。

  • 多模态智能体能力:在7个GUI(图形用户界面)任务中取得了SOTA结果。

  • OCR和图表理解:能够准确识别和理解图像中的文字和图表。

成本与应用

Seed1.5-VL不仅性能强大,还具有显著的推理成本优势。其推理输入价格为每千tokens仅0.003元,输出价格为每千tokens仅0.009元。目前,Seed1.5-VL已在火山引擎全面开放API,开发者可以快速调用其能力,构建AI视觉助手、巡检系统、交互Agent或下一代智能摄像头。

挑战与展望

尽管Seed1.5-VL在多模态理解和推理方面取得了显著进展,但在一些细粒度视觉感知任务上仍面临挑战,例如在处理复杂空间关系、相似颜色或部分遮挡的图像时,模型的准确性有待提高。此外,在高级推理任务中,模型有时会做出未经支持的假设或不完整的响应。不过,Seed1.5-VL的发布无疑标志着字节跳动在多模态技术领域的持续进步。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复