首页 > 快讯 > BAGEL:字节跳动推出的开源多模态模型在图文生成与编辑领域实现革新

BAGEL:字节跳动推出的开源多模态模型在图文生成与编辑领域实现革新

发布时间:2025-05-21 12:47:42 | 责任编辑:张毅 | 浏览量:9 次

字节跳动 发布了一款名为 BAGEL 的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。
BAGEL 在标准多模态理解基准测试中表现出色,超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。此外,在文本到图像的生成质量上,BAGEL 的表现也与强大的专业生成器 SD3相媲美。更重要的是,BAGEL 在经典图像编辑场景中的效果优于许多领先的开源模型。
BAGEL 采用了一种名为混合变换器专家(MoT)的架构,旨在最大化模型对多样化多模态信息的学习能力。它使用两个独立的编码器,分别捕捉图像的像素级和语义级特征。模型的整体框架遵循 “下一个标记组预测” 范式,训练时旨在预测下一个语言或视觉标记,从而达到压缩的目标。
在预训练过程中,BAGEL 利用了来自语言、图像、视频和网络数据的数万亿个交错的多模态标记。经过持续训练和监督微调,BAGEL 在标准的理解和生成基准测试中超过了开源模型,展示了先进的上下文多模态能力,如自由形式图像编辑、未来帧预测、三维操作和世界导航等。
随着 BAGEL 的预训练逐步扩大,研究者们发现模型在理解、生成和编辑任务中的表现持续提升。不同的能力在训练的不同阶段出现,早期展现出多模态理解和生成的能力,而更复杂的智能编辑能力则在后期显现。
研究表明,结合变分自编码器(VAE)和视觉变换器(ViT)的特征显著提升了智能编辑能力,强调了视觉 - 语义上下文在复杂多模态推理中的重要性。
划重点:
🌟 BAGEL 是一款开源多模态基础模型,拥有70亿个活跃参数,超越多项标准基准测试。
🖼️ 该模型在图像生成和编辑任务中表现出色,能够进行自由形式的图像编辑和世界导航。
📈 通过多模态预训练,BAGEL 展示了持续的性能提升,适应了复杂的多模态推理任务。

BAGEL:字节跳动推出的开源多模态模型在图文生成与编辑领域实现革新-项目/模型网址:
GitHub Hugging Face
BAGEL:字节跳动推出的开源多模态模型在图文生成与编辑领域实现革新

字节跳动开源的多模态模型 BAGEL 是图文生成与编辑领域的一项重要突破。以下是关于 BAGEL 的详细介绍:

模型架构与技术特点

  • 混合变换器专家(MoT)架构:BAGEL 采用 MoT 架构,使用两个独立的编码器分别捕捉图像的像素级和语义级特征,最大化模型对多样化多模态信息的学习能力。
  • “下一个标记组预测”范式:模型训练时遵循“下一个标记组预测”范式,旨在预测下一个语言或视觉标记,从而达到压缩的目标。
  • 大规模预训练:BAGEL 在预训练过程中利用了来自语言、图像、视频和网络数据的数万亿个交错的多模态标记,经过持续训练和监督微调,其性能在多模态理解和生成基准测试中显著提升。

性能表现

  • 多模态理解:在标准多模态理解基准测试中,BAGEL 超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。
  • 图像生成:在文本到图像的生成质量上,BAGEL 的表现与强大的专业生成器 SD3 相媲美。
  • 图像编辑:BAGEL 在经典图像编辑场景中的效果优于许多领先的开源模型,能够进行自由形式的图像编辑。

能力与应用场景

  • 复杂多模态推理能力:BAGEL 展示了先进的上下文多模态能力,如自由形式图像编辑、未来帧预测、三维操作和世界导航等。
  • 编辑能力提升:研究表明,结合变分自编码器(VAE)和视觉变换器(ViT)的特征显著提升了智能编辑能力,强调了视觉 - 语义上下文在复杂多模态推理中的重要性。

开源与社区贡献

BAGEL 的开源为多模态研究提供了新的机遇。字节跳动分享了关键发现、预训练细节、数据创建协议,并向社区公开了代码与检查点。这将有助于推动多模态技术的进一步发展和应用。

项目链接

BAGEL 的开源项目页面为:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

BAGEL 的推出不仅在技术上实现了突破,还为多模态领域的研究和应用提供了新的思路和工具。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复