首页 > 快讯 > Fish Audio推出OpenAudio S1：树立AI语音新标准，媲美专业配音演员

Fish Audio推出OpenAudio S1：树立AI语音新标准，媲美专业配音演员

发布时间：2025-06-04 10:49:48 | 责任编辑：吴昊 | 浏览量：815 次

Fish Audio正式推出其最新一代语音生成模型——OpenAudio S1，以其高度自然的声音、丰富的语气控制和强大的指令跟随能力，号称达到专业配音演员的表现力和自然度。这一模型在TTS-Arena排行榜中荣登第一，成为文本转语音（TTS）领域的新标杆。小编为您深入解析OpenAudio S1的突破性功能及其潜在影响。
OpenAudio S1:重塑AI语音生成体验
OpenAudio S1是Fish Audio在Fish Speech系列基础上的全新升级，凭借先进的架构设计和大规模训练数据，实现了前所未有的语音自然度和表现力。核心亮点包括:
高度自然的声音:生成的声音流畅、逼真，几乎与人类配音无异，适用于专业场景如视频配音、播客和游戏角色语音。
丰富的语气控制:支持超过50种情绪和语气标记，如（愤怒）、(高兴)、(悲伤)、(低语)、(同情)等，用户可通过自然语言指令灵活调整语音表达。
强大的指令跟随能力:通过简单的文本指令，用户可以控制语音的语速、音量、停顿甚至笑声等细节，打造高度个性化的语音输出。
得益于200万小时的音频训练数据，OpenAudio S1在语音生成的质量和多样性上取得了显著突破，覆盖英语、中文、日语、韩语、法语、德语、阿拉伯语、西班牙语等13种语言，展现了强大的多语言能力。
视频来自官方，翻译：小互
TTS-Arena排名第一:专业水准的认证
在TTS-Arena的最新评测中，OpenAudio S1以“Anonymous Sparkle”之名荣登榜首，击败众多开源和专有模型。TTS-Arena通过用户投票比较不同TTS模型的自然度和表现力，OpenAudio S1以其逼真的语音质量和细腻的情感表达获得广泛认可。
此外，OpenAudio S1在Seed TTS评估中表现出色，英语单词错误率（WER）低至0.008，字符错误率(CER)仅为0.004，远超传统模型，证明其在语音准确性上的领先地位。
技术亮点:Dual-AR架构与RLHF训练
创新的Dual-AR架构
OpenAudio S1采用了独特的双自回归（Dual-AR）架构，结合快速和慢速Transformer模块，优化了语音生成的稳定性和效率。该架构通过分组有限标量矢量量化(GFSQ)技术提升了代码本处理能力，确保高保真语音输出，同时降低计算成本。
RLHF驱动的情感表达
OpenAudio S1通过在线**强化学习与人类反馈（RLHF）**技术，显著增强了语音的情感表达能力。相比传统TTS模型，S1能够更精准地捕捉语音的音色和语调，生成的情感表达更加自然。例如，用户可通过标记如(兴奋)、(紧张)或(喜悦)实现细腻的情绪控制，满足从广告到虚拟助手的多样化需求。
实际应用:从创意到商业的无限可能
OpenAudio S1的多功能性和高性能使其在多个领域展现出巨大潜力:
内容创作:为视频、播客和有声书生成专业级配音，显著提升生产效率。
虚拟助手:打造个性化语音导航或客服系统，支持多语言交互。
游戏与娱乐:为游戏角色生成逼真的对话和旁白，增强沉浸式体验。
教育与无障碍:为视障用户提供高质量的文本转语音服务，或为教育平台生成多语言学习内容。
语音克隆的便捷性
OpenAudio S1支持零样本和少样本语音克隆，仅需10-30秒的音频样本即可生成高保真的克隆语音，过程简单且耗时不到1分钟。这一功能尤其适合需要快速生成个性化语音的场景，如定制化播音员或名人语音模拟。
开源与商业并重:灵活的部署选择
OpenAudio S1提供**S1（4B参数，专有模型）和S1-mini(0.5B参数，开源模型)**两个版本，满足不同用户需求。S1-mini已完全开源，开发者可通过GitHub自由访问和定制，适合研究和教育场景;而S1则通过云服务提供高性能支持，采用平价定价模式，确保成本可控。
用户反馈显示，OpenAudio S1在语音真实性和情感细腻度上超越了竞品如ElevenLabs，尤其在多语言支持和生产效率上表现突出。云端处理速度极快，平均20秒即可生成高质量语音，且支持批量处理，适合大规模商业应用。
未来展望:语音交互的新篇章
Fish Audio表示，OpenAudio S1的发布只是起点。未来，团队计划推出实时语音交互功能，支持与语音库角色的无缝对话，进一步提升交互体验。此外，通过持续扩展训练数据和优化RLHF，S1有望支持更多语言和更复杂的情感表达，巩固其在TTS领域的领先地位。
小编认为，OpenAudio S1的推出标志着AI语音技术向专业化、普惠化的重要转变。其强大的多语言支持和情感控制能力，不仅为开发者提供了创新空间，也为普通用户带来了更自然的语音交互体验。随着实时交互功能的临近，OpenAudio S1有望重塑虚拟助手、内容创作和游戏产业的语音应用格局。
体验地址：https://fish.audio/zh-CN/

Fish Audio于2025年6月3日正式发布了其最新一代语音生成模型——OpenAudio S1。该模型以其高度自然的声音、丰富的语气控制和强大的指令跟随能力，号称达到了专业配音演员的表现力和自然度。以下是OpenAudio S1的主要亮点和相关信息：

核心特性

高度自然的声音：生成的语音流畅且逼真，几乎与人类配音无异，适用于视频配音、播客、游戏角色语音等专业场景。
丰富的语气控制：支持超过50种情绪和语气标记（如愤怒、高兴、悲伤、低语、同情等），用户可以通过自然语言指令灵活调整语音表达。
强大的指令跟随能力：用户可以通过简单的文本指令控制语音的语速、音量、停顿甚至笑声等细节，打造高度个性化的语音输出。
多语言支持：覆盖英语、中文、日语、韩语、法语、德语、阿拉伯语、西班牙语等13种语言。
语音克隆功能：支持零样本和少样本语音克隆，仅需10-30秒的音频样本即可生成高保真的克隆语音，过程简单且耗时不到1分钟。

技术亮点

创新的Dual-AR架构：结合快速和慢速Transformer模块，优化了语音生成的稳定性和效率。通过分组有限标量矢量量化（GFSQ）技术提升了代码本处理能力，确保高保真语音输出，同时降低计算成本。
RLHF驱动的情感表达：通过在线强化学习与人类反馈（RLHF）技术，显著增强了语音的情感表达能力，能够更精准地捕捉语音的音色和语调。

性能表现

在TTS-Arena的最新评测中，OpenAudio S1以“Anonymous Sparkle”之名荣登榜首，击败众多开源和专有模型。
在Seed TTS评估中，英语单词错误率（WER）低至0.008，字符错误率（CER）仅为0.004，远超传统模型。

应用场景

内容创作：为视频、播客和有声书生成专业级配音，显著提升生产效率。
虚拟助手：打造个性化语音导航或客服系统，支持多语言交互。
游戏与娱乐：为游戏角色生成逼真的对话和旁白，增强沉浸式体验。
教育与无障碍：为视障用户提供高质量的文本转语音服务，或为教育平台生成多语言学习内容。

版本与部署

OpenAudio S1提供两个版本：S1（4B参数，专有模型）和S1-mini（0.5B参数，开源模型）。S1-mini已完全开源，适合研究和教育场景；S1则通过云服务提供高性能支持，采用平价定价模式。

未来展望

Fish Audio表示，OpenAudio S1的发布只是起点。未来，团队计划推出实时语音交互功能，支持与语音库角色的无缝对话，进一步提升交互体验。

OpenAudio S1的推出标志着AI语音技术向专业化、普惠化的重要转变，其强大的多语言支持和情感控制能力，不仅为开发者提供了创新空间，也为普通用户带来了更自然的语音交互体验。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。