首页 > 快讯 > 港大联合字节跳动及华中科技大学发布UniTok,创新视觉分词技术

港大联合字节跳动及华中科技大学发布UniTok,创新视觉分词技术

发布时间:2025-05-07 17:35:46 | 责任编辑:张毅 | 浏览量:42 次

近日,字节跳动联合香港大学和华中科技大学共同推出了全新的视觉分词器 UniTok。这款工具不仅能在视觉生成和理解任务中发挥作用,还在技术上进行了重要创新,解决了传统分词器在细节捕捉与语义理解之间的矛盾。
UniTok 采用了多码本量化技术,能够将图像特征分割成多个小块,并用独立的子码本进行量化。这种方法极大地提升了视觉 token 的表示能力,使得处理图像时能够更加精细。比如,UniTok 在 ImageNet 数据集上的零样本分类准确率达到了78.6%,而图像重建质量也仅为0.38,远超现有的分词器。
UniTok 的核心功能包括统一视觉表示和高质量图像重建。它能将图像编码为离散的视觉 token,这些 token 不仅可以用于图像生成(例如根据文本生成图像),还可以用于视觉理解(例如回答与图像相关的问题)。此外,UniTok 结合了对比学习和重建损失,确保生成的视觉 token 与文本描述之间的对齐,从而提升视觉理解的能力。
在技术原理上,UniTok 的多码本量化使得视觉 token 的词汇量可以指数级增长。而其使用的多头注意力模块则更好地保留了原始 token 中的语义信息,使得分解后的特征表达能力得以提升。整个训练过程遵循统一的目标,确保图像细节的准确重建,同时优化生成和理解任务。
UniTok 不仅在视觉领域表现出色,还为多模态大语言模型(MLLM)的发展提供了强有力的支持。它将生成的视觉 token 映射到多模态语言模型的 token 空间,推动了视觉与语言的统一处理。这种技术进步不仅提升了图像生成的效率,还为教育、医疗影像分析等多个领域带来了新的应用前景。
未来,UniTok 有望在多个场景中得到广泛应用,比如作为多模态模型的视觉输入模块,提升图文信息处理能力;根据文本生成细节丰富的图像,助力创意设计;或是在电商平台中进行跨模态检索与推荐,从而提高用户体验。
项目地址:https://github.com/FoundationVision/UniTok

港大联合字节跳动及华中科技大学发布UniTok,创新视觉分词技术

字节跳动携手香港大学与华中科技大学推出了UniTok,这是一种革新性的视觉分词技术,旨在弥合视觉生成与理解之间的表示差距。

技术背景

在视觉生成(如图像生成、视频生成)和视觉理解(如图像识别、视频分析)任务中,传统方法通常使用不同的表示方式,导致两者难以统一。UniTok通过离散化的视觉分词技术,将复杂的视觉信息分解为离散的token,从而实现生成和理解任务的统一。

UniTok的核心技术

UniTok基于变分量子化自编码器(VQVAE)和变分自编码器(VAE)技术,通过多码本量化扩展潜在特征空间。这种方法将向量量化分为多个独立的子码本,避免了因码本过大导致的训练不稳定问题。其训练过程包括:

  1. 图像单一分辨率训练:在固定分辨率上进行图像训练。

  2. 图像-视频联合多分辨率训练:在多个分辨率上进行图像和视频的联合训练。

  3. VAE微调:通过KL损失对VQVAE模型进行微调,得到VAE模型。

UniTok的优势

  1. 高效视觉编码:UniTok能够将复杂的视觉信息(如图像和视频)分解为离散的token,便于模型处理。

  2. 多模态支持:不仅适用于图像,还能处理视频内容,支持连续和离散分词化。

  3. 低资源需求:在低token数量下仍能保持高重建质量,例如在256个token下的重建误差仅为0.39。

  4. 灵活的压缩率:用户可以根据需求调整token数量,以平衡生成质量和计算效率。

  5. 单一模型和权重:通过单一模型和权重处理图像和视频分词,简化了模型管理和部署。

  6. 高适应性:支持高分辨率和长视频输入,适应多种应用场景。

  7. 兼容性强:与语言模型和扩散模型兼容,实现多样化的视觉生成。

应用场景

UniTok可用于多种视觉生成和理解任务,包括:

  • 图像和视频重建:通过少量token实现高质量的视觉内容重建。

  • 多模态理解:结合文本和视觉信息,实现更高效的多模态模型训练。

  • 扩散模型结合:与DiT和Latte等扩散模型结合,生成高质量的视觉内容。

性能表现

UniTok在多个基准测试中表现出色。例如,在ImageNet数据集上,UniTok的零样本准确率达到78.6%,优于CLIP的76.2%;在生成任务中,UniTok的rFID值为0.38,显著优于SD-VAE的0.87。

UniTok的推出为多模态大语言模型(MLLMs)提供了一个更高效的解决方案,有望推动视觉生成和理解技术的进一步发展。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复