首页 > 快讯 > Arm与Stability AI联手发布手机音频合成AI：在7秒内生成11秒立体声音效

Arm与Stability AI联手发布手机音频合成AI：在7秒内生成11秒立体声音效

发布时间：2025-05-19 10:59:41 | 责任编辑：张毅 | 浏览量：215 次

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"（Stable Audio Open Small）的紧凑型文本转音频模型，该模型能够在约7秒内生成长达11秒的高质量立体声音频片段，且经过优化可在智能手机等移动设备上运行。
这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"（Adversarial Relativistic-Contrastive，ARC）技术。该模型在高端硬件如Nvidia H100GPU上的表现更为惊人，能够在仅75毫秒内完成44kHz立体声音频的生成，实现了近乎实时的音频合成能力。
与去年发布的包含11亿参数的原始Stable Audio Open相比，这一精简版本仅使用3.41亿个参数，大幅减少了计算资源需求，使其能够在消费级硬件上流畅运行。这是Stability AI和Arm于今年3月宣布合作后的首个重要成果。
为实现智能手机端运行，开发团队对模型架构进行了彻底改进，将系统重构为三个核心组件:压缩音频数据的自动编码器，解释文本提示的嵌入模块，生成最终音频的扩散模型。
Stability AI表示，该模型在生成音效和现场录音方面表现尤为出色，但在音乐生成方面仍有限制，特别是在处理歌声时，且目前主要适用于英语提示输入。
模型训练使用了Freesound数据库中约472，000个符合CC0、CC-BY或CC-Sampling+许可条款的音频片段，开发团队通过一系列自动化检查对训练数据进行了筛选，以避免潜在的版权问题。

Stability AI与Arm合作推出了一款名为“Stable Audio Open Small”的轻量级文本转音频模型，该模型能够在手机等移动设备上本地运行，并在约7秒内生成长达11秒的高质量立体声音频。

技术特点

轻量级设计：该模型仅有3.41亿个参数，相比其前身Stable Audio Open（11亿参数），大幅降低了对硬件的需求，使其能够在普通智能手机上流畅运行。
优化与加速：通过与Arm的深度合作，利用KleidifyAI库进行了优化，使其在Arm CPU上运行效率极高。此外，该模型采用了“对抗相对对比”（Adversarial Relativistic-Contrastive，ARC）技术，进一步加快了推理速度。
离线运行：Stable Audio Open Small可以在移动设备上本地运行，无需依赖云端处理，这意味着用户可以在没有网络连接的情况下生成音频。

应用场景

该模型专为生成短音频样本（最长11秒）设计，适用于音效、鼓点、乐器片段和环境音等场景。用户只需输入简单的英文文本提示，例如“海浪拍打海岸的声音”或“128BPM电子鼓循环”，即可快速生成44.1kHz的立体声音频。

版权合规

Stable Audio Open Small的训练数据集完全来自Free Music Archive和Freesound的免版权音频，确保了模型的版权合规性。

局限性

语言限制：目前该模型仅支持英文提示。
音乐风格限制：由于训练数据主要来源于西方音乐，该模型在处理非西方音乐风格时可能表现欠佳。
无法生成人声或完整歌曲：该模型目前无法生成逼真的人声或高质量的完整歌曲。

总体而言，Stable Audio Open Small在音频生成领域展现了强大的潜力，尤其是在移动设备上的应用前景广阔。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。