首页 > 快讯 > MOSS-Speech开放源码：中国首例语音直译语音模型，无需文本转换

MOSS-Speech开放源码：中国首例语音直译语音模型，无需文本转换

发布时间：2025-11-20 16:52:27 | 责任编辑：吴昊 | 浏览量：115 次

复旦大学MOSS团队推出MOSS-Speech，首次实现端到端Speech-to-Speech对话，模型已上线Hugging Face Demo并同步开源权重与代码。MOSS-Speech采用“层拆分”架构:冻结原MOSS文本大模型参数，新增语音理解、语义对齐与神经声码器三层，可一次性完成语音问答、情绪模仿与笑声生成，无需ASR→LLM→TTS三段流水线。
评测显示，MOSS-Speech在ZeroSpeech2025无文本语音任务中WER降至4.1%，情感识别准确率91.2%，均优于Meta的SpeechGPT与Google AudioLM;中文口语测试主观MOS分达4.6，接近真人录音4.8。项目提供48kHz超采样版与16kHz轻量版，后者可在单张RTX4090实时推理，延迟<300ms，适合移动端部署。
团队透露，下一步将开源“语音控制版”MOSS-Speech-Ctrl，支持通过语音指令动态调整语速、音色与情感强度，预计2026年Q1发布。MOSS-Speech已开放商用许可，开发者可通过GitHub获取训练与微调脚本，在本地完成私有声音克隆与角色语音化。

这是一篇关于MOSS-Speech开源：国内首个语音到语音大模型，告别文本中介的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：开放源码MOSS-Speech：领先国内的语音直通大模型，无需文本媒介

下一篇：第三季度网易入账284亿元，AI订阅业务实现历史新高销售额

MOSS-Speech开放源码：中国首例语音直译语音模型，无需文本转换

最新Ai信息

最新Ai工具

热门AI推荐