手机瞬间跃升为音频创作利器,得益于Stability AI发布的开放式Small Stable Audio技术
发布时间:2025-07-03 11:34:59 | 责任编辑:吴昊 | 浏览量:6 次
Stability AI联合芯片巨头Arm正式开源Stable Audio Open Small,一款专为移动设备优化的341M参数文本到音频生成模型。这款轻量化模型能在Arm CPU上本地运行,生成高质量立体声音频,标志着AI音频生成技术向边缘计算和移动设备的重大迈进。
Stable Audio Open Small基于Stability AI此前发布的Stable Audio Open模型,通过深度优化,参数量从1.1B压缩至341M,显著降低了计算需求。得益于Arm的KleidiAI库支持,模型能在智能手机上以不到8秒的速度生成最长11秒的44.1kHz立体声音频,无需云端处理,适合离线场景。
该模型采用潜在扩散模型(Latent Diffusion Model),结合T5文本嵌入和基于变压器的扩散架构(DiT),通过简单的英文文本提示(如“128BPM电子鼓循环”或“海浪拍岸的声音”)即可生成音效、鼓点、乐器片段或环境音。小编测试表明,模型在生成短音频片段时细节丰富,尤其适合音效设计和音乐制作。
Stable Audio Open Small遵循Stability AI社区许可,对研究人员、个人用户及年收入低于100万美元的企业免费开放,模型权重和代码已在Hugging Face和GitHub上发布。 大型企业需购买企业许可,确保技术在商业化中的可持续性。这种分级许可策略降低了技术门槛,鼓励全球开发者探索音频生成应用。
此外,模型训练数据全部来自Freesound和Free Music Archive的免版税音频,确保了版权合规性,规避了如Suno和Udio等竞争对手因使用受版权保护内容而引发的风险。
Stable Audio Open Small引入了对抗性相对对比(ARC)后训练方法,无需传统蒸馏或无分类器指导,结合相对对抗损失和对比鉴别器损失,显著提升了生成速度和提示遵循性。研究显示,模型在H100GPU上生成12秒音频仅需75毫秒,在移动设备上约7秒,且在CLAP条件多样性得分上达到0.41,位居同类模型之首。
主观测试中,模型在多样性(4.4)、质量(4.2)和提示遵循性(4.2)上均获得高分,展现了其在生成音效和节奏片段方面的优异表现。 其Ping-Pong采样技术进一步优化了少步推理,兼顾速度与质量。
Stable Audio Open Small的发布标志着AI音频生成技术向移动端和边缘计算的转型。与依赖云处理的竞争对手不同,该模型的离线运行能力为移动场景(如实时音效生成)提供了便利,覆盖全球99%的智能手机用户。 小编分析认为,这种技术普及将重塑音频创作生态,让普通用户也能参与专业级音效设计。
然而,模型也存在局限性:仅支持英文提示,对非西方音乐风格的表现较弱,且无法生成逼真的人声或完整歌曲。 Stability AI表示,未来将优化多语言支持和音乐风格多样性,以提升全球适用性。
项目:https://huggingface.co/stabilityai/stable-audio-open-small
Stable Audio Open Small 是 Stability AI 与 Arm 合作推出的一款轻量级文本到音频生成模型,具有以下特点:
功能特点
-
文本到音频生成:用户输入文本提示,模型可生成相应音频,如乐器声、环境音效、简单音乐片段等。
-
快速音频生成:在移动设备上,8 秒内可生成长达 11 秒的音频,适合实时应用。
-
轻量化设计:参数量从 11 亿减少到 3.41 亿,适合在资源受限的设备上运行。
-
高效运行:基于 Arm 的 KleidiAI 技术优化,在边缘设备上运行效率更高,降低计算成本。
-
多样化音频生成:支持生成短音频样本、音效、乐器片段和环境纹理等,适合创意音频制作和实时音频应用。
技术优势
-
对抗式后训练技术:采用对抗式后训练(ARC)技术,摒弃传统蒸馏或条件生成方法,进一步加速推理速度。
-
优化架构:系统由自编码器、嵌入模块和扩散模型三个组件构成,内存使用量几乎减半,从 6.5GB 降低到 3.6GB。
使用场景
-
音效设计:可快速生成各种音效,如海浪声、鼓点声等,为影视、游戏等提供音效素材。
-
音乐创作:生成乐器片段、节奏循环等,为音乐制作提供灵感和素材。
-
创意音频制作:随时随地生成音频内容,满足创意音频制作需求。
限制
-
语言支持:目前仅支持英文提示。
-
音乐类型:训练数据以西方音乐为主,处理非西方音乐风格时可能表现欠佳。
-
生成内容:无法生成逼真的歌声或高质量完整歌曲。
Stable Audio Open Small 的开源,为手机音频创作带来了新的可能性,让手机秒变音频创作神器。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。