首页 > 快讯 > MOSS-Speech开放源码:中国首例语音直译语音模型,无需文本转换
MOSS-Speech开放源码:中国首例语音直译语音模型,无需文本转换
发布时间:2025-11-20 16:52:27 | 责任编辑:吴昊 | 浏览量:15 次
复旦大学MOSS团队推出MOSS-Speech,首次实现端到端Speech-to-Speech对话,模型已上线Hugging Face Demo并同步开源权重与代码。MOSS-Speech采用“层拆分”架构:冻结原MOSS文本大模型参数,新增语音理解、语义对齐与神经声码器三层,可一次性完成语音问答、情绪模仿与笑声生成,无需ASR→LLM→TTS三段流水线。
评测显示,MOSS-Speech在ZeroSpeech2025无文本语音任务中WER降至4.1%,情感识别准确率91.2%,均优于Meta的SpeechGPT与Google AudioLM;中文口语测试主观MOS分达4.6,接近真人录音4.8。项目提供48kHz超采样版与16kHz轻量版,后者可在单张RTX4090实时推理,延迟<300ms,适合移动端部署。
团队透露,下一步将开源“语音控制版”MOSS-Speech-Ctrl,支持通过语音指令动态调整语速、音色与情感强度,预计2026年Q1发布。MOSS-Speech已开放商用许可,开发者可通过GitHub获取训练与微调脚本,在本地完成私有声音克隆与角色语音化。
©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
