首页 > 快讯 > StepFun AI 推送新工具 Step-Audio-EditX，革新开源音频编辑应用体验

StepFun AI 推送新工具 Step-Audio-EditX，革新开源音频编辑应用体验

发布时间：2025-11-10 10:44:10 | 责任编辑：吴昊 | 浏览量：54 次

StepFun AI 近日发布了其开源的音频编辑模型 Step-Audio-EditX，这一创新的3B 参数模型将音频编辑的操作变得像文本编辑一样直接和可控。通过将音频信号的编辑任务转换为逐字的令牌操作，Step-Audio-EditX 使得表达性的语音编辑变得更加简单。
目前，大多数零样本文本到语音（TTS）系统在情感、风格、口音和音色的控制上都显得有限。尽管它们可以生成自然的语音，但往往无法精确地符合用户的需求。过去的研究尝试通过额外的编码器和复杂的架构来拆分这些因素，而 Step-Audio-EditX 则通过调整数据和训练目标来实现控制。
Step-Audio-EditX 采用了双代码本的标记器，将语音映射为两个令牌流，一个是以16.7Hz 的速率记录的语言流，另一个是以25Hz 的速率记录的语义流。模型在一个包含文本和音频令牌的混合语料库上进行了训练，使其能够同时处理文本和音频令牌。
该模型的关键在于采用大边距学习的方法，后续训练阶段利用合成的大边距三元组和四元组来增强模型的表现。通过使用约60000名说话者的高质量数据，模型在情感和风格编辑方面表现出色。此外，模型还利用人类评分和偏好数据进行强化学习，以提高语音生成的自然性和准确性。
为了评估模型的效果，研究团队引入了 Step-Audio-Edit-Test 基准，使用 Gemini2.5Pro 作为评判工具。测试结果显示，经过多轮编辑，模型在情感和说话风格的准确性上都显著提升。此外，Step-Audio-EditX 还可以有效提升其他闭源 TTS 系统的音频质量，为音频编辑的研究带来了新的可能性。
论文:https://arxiv.org/abs/2511.03601
划重点:
🎤 **StepFun AI 推出 Step-Audio-EditX 模型，使音频编辑更简便。**
📈 ** 该模型采用大边距学习，提升情感和风格编辑的准确性。**
🔍 ** 引入 Step-Audio-Edit-Test 基准，显著提升音频质量评估。**

这是一篇关于StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，实现音频编辑新体验的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：乌镇峰会出新成果：360推出首版《大模型安全白皮书》，创新“全链路AI安全防线”抵御智能时代挑战

下一篇： Kimi K2 Thinking 训练成本为460万美元，月之暗面表现力问鼎人类巅峰测试

StepFun AI 推送新工具 Step-Audio-EditX，革新开源音频编辑应用体验

最新Ai信息

最新Ai工具

热门AI推荐