首页 > 快讯 > 新型SVG扩散模型由清华和快手合作研发，训练速度提升6200%

新型SVG扩散模型由清华和快手合作研发，训练速度提升6200%

发布时间：2025-10-29 15:28:42 | 责任编辑：吴昊 | 浏览量：178 次

在近期的科技界，VAE（变分自编码器）正在经历被逐步淘汰的尴尬局面，随着清华大学与快手可灵团队的合作，推出了一款名为 SVG(无 VAE 潜在扩散模型)的新型生成模型。此次创新不仅在训练效率上实现了6200% 的惊人提升，而且在生成速度上更是达到了3500% 的飞跃。
VAE 在图像生成领域的衰退，主要源于其存在的 “语义纠缠” 问题。也就是说，当我们尝试仅仅改变图像中某一特征（如猫的颜色）时，其他特征(如体型、表情)往往也会受到影响，导致生成的图像不够精准。为了解决这个问题，清华与快手的 SVG 模型采取了不同的策略，主动构建了一个融合语义与细节的特征空间。
在 SVG 模型的设计中，团队首先使用 DINOv3预训练模型作为语义提取器，该模型经过大规模的自监督学习，能够有效识别和分离不同类别的特征，解决了传统 VAE 模型中的语义混乱。此外，为了补充细节，团队还特别设计了一个轻量级的残差编码器，确保细节信息不会与语义特征相冲突。关键的分布对齐机制则进一步增强了这两种特征的融合，保证了生成图像的高质量。
实验结果表明，SVG 模型在生成质量和多任务通用性方面，全面超越了传统的 VAE 方案。在 ImageNet 数据集上，SVG 模型在仅训练80个周期时，FID 值（衡量生成图像与真实图像相似度的指标）达到6.57，远超同规模的 VAE 模型;而在推理效率上，SVG 模型也显示出卓越的性能，在较少的采样步骤下即可生成清晰图像。此外，SVG 模型的特征空间还可直接用于图像分类、语义分割等多种视觉任务，无需额外微调，大大提高了应用的灵活性。
清华与快手的这一新技术不仅为图像生成领域带来了革命性的变化，更有望在多模态生成任务中展现出强大的潜力。
论文地址：https://arxiv.org/pdf/2510.15301

这是一篇关于清华与快手联手推出新型SVG扩散模型，训练效率暴增6200%的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：廖谦，前字节跳动剪映 AI 产品负责人，创业推出多模态营销 Agent

下一篇：高通突袭数据中心！AI200/AI250芯片直指英伟达，单日股价飙升20%

新型SVG扩散模型由清华和快手合作研发，训练速度提升6200%

最新Ai信息

最新Ai工具

热门AI推荐