首页 > 快讯 > 美团开源LongCat-AudioDiT：首创波形潜空间建模，刷新音色克隆SOTA纪录

美团开源LongCat-AudioDiT：首创波形潜空间建模，刷新音色克隆SOTA纪录

发布时间：2026-04-02 12:33:21 | 责任编辑：吴昊 | 浏览量：47 次

音频生成技术正迎来从级联架构向端到端生成的范式转移。针对传统 TTS 系统因“梅尔频谱”中间表征带来的信息损耗与误差累积，美团 LongCat 团队于今日正式发布并开源了 LongCat-AudioDiT（提供1B/3.5B 两个版本）。该模型通过在波形潜空间直接建模，成功刷新了零样本语音克隆的性能上限。
LongCat-AudioDiT 抛弃了传统的“预测声学特征+神经声码器”的多阶段流程，构建了由 Wav-VAE（波形变分自编码器）与 DiT（扩散 Transformer）组成的极简架构。
高效 Wav-VAE: 采用全卷积设计，将24kHz 波形压缩2000倍至11.7Hz 帧率。通过非参数捷径分支与多目标对抗训练，确保了重建波形在保持精确时频结构的同时，拥有极佳的自然听感。
语义增强 DiT: 模型创新性地将 UMT5文本编码器的原始词嵌入与顶层隐藏状态融合，补齐了高层语义中丢失的音素细节，大幅提升了生成语音的可懂度。
为了进一步优化生成质量，团队引入了两项关键技术改进:
双重约束机制: 识别并纠正了流匹配 TTS 长期存在的“训练-推理不匹配”问题。通过在推理中强制重置提示区域（Prompt）隐变量，彻底解决了说话人音色漂移及稳定性不足的痛点。
自适应投影引导（APG）: 取代传统的无分类器引导（CFG）。APG 能够精准筛选引导信号中的有益分量，抑制导致音质劣化的信号，在不产生频谱“过饱和”的前提下，显著提升了语音的自然度。
在 Seed 基准测试中，LongCat-AudioDiT 展现了统治级的性能:
相似度（SIM）:3.5B 模型在 Seed-ZH 测试集达到 0.818，在 Seed-Hard 难句测试集达到 0.797，均超越了 Seed-TTS、CosyVoice3.5及 MiniMax-Speech 等知名模型。
准确率: 在英文 WER（1.50%）及中文难句 CER(6.04%)等指标上均处于行业第一梯队。
值得关注的是，LongCat-AudioDiT 仅通过 ASR 转写的预训练数据进行单阶段训练，便实现了优于多阶段训练模型的表现。目前，相关论文、代码及模型权重已在GitHub与HuggingFace全面开放。
地址:
GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT

这是一篇关于美团 LongCat-AudioDiT 开源:首创波形潜空间建模，刷新音色克隆 SOTA的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：日均消耗超120万亿！字节跳动豆包大模型流量激增，两年暴涨千倍成“顶流”

下一篇：美团开源LongCat-AudioDiT：首创波形潜空间建模，刷新音色克隆SOTA纪录

美团开源LongCat-AudioDiT：首创波形潜空间建模，刷新音色克隆SOTA纪录

最新Ai信息

最新Ai工具

热门AI推荐