首页 > 快讯 > VTP技术开源发布：华中科大与MiniMax携手，专为视觉分词器优化，DiT性能提升高达65.8%！

VTP技术开源发布：华中科大与MiniMax携手，专为视觉分词器优化，DiT性能提升高达65.8%！

发布时间：2025-12-24 10:26:30 | 责任编辑：张毅 | 浏览量：179 次

AI视觉生成领域迎来范式级突破。MiniMax与华中科技大学近日联合开源其核心技术——VTP（Visual Tokenizer Pretraining，视觉分词器预训练），在不修改标准DiT(Diffusion Transformer)架构的前提下，仅通过优化视觉分词器(Visual Tokenizer)，即实现65.8%的端到端图像生成性能提升。这一成果颠覆了“唯有堆大模型才能提性能”的行业惯性，首次将视觉分词器推向前所未有的技术高度。
不碰主模型，只改“翻译官”——性能却翻倍
传统生成模型（如DALL·E3、Stable Diffusion3）依赖DiT等主干网络提升性能，而VTP另辟蹊径:它将视觉分词器——即负责将图像压缩为离散token序列的“视觉翻译官”——作为核心优化对象。
关键在于，VTP无需改动DiT的任何训练流程或结构，仅在预训练阶段对分词器进行专门优化，使其输出的latent表征更易学习、更具通用性，从而让下游DiT“事半功倍”。实验显示，在相同DiT配置下，采用VTP的系统生成质量（FID、CLIP Score等指标）显著超越基线。
首次建立“分词器可扩展性”理论框架
VTP的突破不仅是工程优化，更提出全新理论视角:
- 首次明确将latent表征的易学性（learnability）与通用视觉表征能力关联;
- 首次证明分词器本身具备可扩展性（tokenizer scaling）——随着分词器容量、训练数据与预训练策略的增强，生成性能呈现清晰的scaling曲线;
- 为行业开辟“模型之外的性能增长路径”:未来或无需一味扩大DiT参数，而可通过优化分词器实现更高性价比的性能跃升。
开源即赋能，推动视觉生成民主化
目前，VTP代码、预训练分词器及训练配方已全面开源，兼容主流DiT实现。这意味着，任何使用DiT架构的研究者或企业，均可“即插即用”VTP，低成本获得近70%的生成质量提升，尤其利好算力有限的中小团队。
小编认为，VTP的发布标志着AI生成技术进入“系统级优化”新阶段。当行业从“唯大模型论”转向“全链路协同提效”，MiniMax与华中科大此次合作，不仅是一次技术胜利，更是对“高效AI”发展理念的有力践行——真正的创新，有时不在于造更大的引擎，而在于让每个零件都更聪明地协同工作。
代码:https://github.com/MiniMax-AI/VTP
论文:https://arxiv.org/abs/2512.13687v1

这是一篇关于MiniMax联合华中科大开源VTP技术！仅优化视觉分词器，DiT生成性能飙升65.8%的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： “解锁权限后，迎接ChatGPT的’年度回顾’——探索你的AI身份、年度诗词及创新徽章”

下一篇：新消息称苹果正在重组AI部门，以期为iPhone 17带来焕然一新的Siri体验

VTP技术开源发布：华中科大与MiniMax携手，专为视觉分词器优化，DiT性能提升高达65.8%！

最新Ai信息

最新Ai工具

热门AI推荐