首页 > 快讯 > Arm与Stability AI联手发布手机音频合成AI:在7秒内生成11秒立体声音效

Arm与Stability AI联手发布手机音频合成AI:在7秒内生成11秒立体声音效

发布时间:2025-05-19 10:59:41 | 责任编辑:张毅 | 浏览量:1 次

Stability AI和Arm联合发布了一款名为"稳定音频开放小型"(Stable Audio Open Small)的紧凑型文本转音频模型,该模型能够在约7秒内生成长达11秒的高质量立体声音频片段,且经过优化可在智能手机等移动设备上运行。
这一突破基于加州大学伯克利分校研究人员开发的"对抗相对对比"(Adversarial Relativistic-Contrastive,ARC)技术。该模型在高端硬件如Nvidia H100GPU上的表现更为惊人,能够在仅75毫秒内完成44kHz立体声音频的生成,实现了近乎实时的音频合成能力。
与去年发布的包含11亿参数的原始Stable Audio Open相比,这一精简版本仅使用3.41亿个参数,大幅减少了计算资源需求,使其能够在消费级硬件上流畅运行。这是Stability AI和Arm于今年3月宣布合作后的首个重要成果。
为实现智能手机端运行,开发团队对模型架构进行了彻底改进,将系统重构为三个核心组件:压缩音频数据的自动编码器,解释文本提示的嵌入模块,生成最终音频的扩散模型。
Stability AI表示,该模型在生成音效和现场录音方面表现尤为出色,但在音乐生成方面仍有限制,特别是在处理歌声时,且目前主要适用于英语提示输入。
模型训练使用了Freesound数据库中约472,000个符合CC0、CC-BY或CC-Sampling+许可条款的音频片段,开发团队通过一系列自动化检查对训练数据进行了筛选,以避免潜在的版权问题。

Arm与Stability AI联手发布手机音频合成AI:在7秒内生成11秒立体声音效

Stability AI与Arm合作推出了一款名为“Stable Audio Open Small”的轻量级文本转音频模型,该模型能够在手机等移动设备上本地运行,并在约7秒内生成长达11秒的高质量立体声音频。

技术特点

  • 轻量级设计:该模型仅有3.41亿个参数,相比其前身Stable Audio Open(11亿参数),大幅降低了对硬件的需求,使其能够在普通智能手机上流畅运行。

  • 优化与加速:通过与Arm的深度合作,利用KleidifyAI库进行了优化,使其在Arm CPU上运行效率极高。此外,该模型采用了“对抗相对对比”(Adversarial Relativistic-Contrastive,ARC)技术,进一步加快了推理速度。

  • 离线运行:Stable Audio Open Small可以在移动设备上本地运行,无需依赖云端处理,这意味着用户可以在没有网络连接的情况下生成音频。

应用场景

该模型专为生成短音频样本(最长11秒)设计,适用于音效、鼓点、乐器片段和环境音等场景。用户只需输入简单的英文文本提示,例如“海浪拍打海岸的声音”或“128BPM电子鼓循环”,即可快速生成44.1kHz的立体声音频。

版权合规

Stable Audio Open Small的训练数据集完全来自Free Music Archive和Freesound的免版权音频,确保了模型的版权合规性。

局限性

  • 语言限制:目前该模型仅支持英文提示。

  • 音乐风格限制:由于训练数据主要来源于西方音乐,该模型在处理非西方音乐风格时可能表现欠佳。

  • 无法生成人声或完整歌曲:该模型目前无法生成逼真的人声或高质量的完整歌曲。

总体而言,Stable Audio Open Small在音频生成领域展现了强大的潜力,尤其是在移动设备上的应用前景广阔。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复