首页 > 快讯 > Stability AI发布轻量级341M开放式文字转语音模型,支持手机本地运行,音频创建只需8秒!

Stability AI发布轻量级341M开放式文字转语音模型,支持手机本地运行,音频创建只需8秒!

发布时间:2025-05-15 12:37:16 | 责任编辑:张毅 | 浏览量:4 次

近日,Stability AI携手芯片巨头Arm,正式开源了一款轻量级文字转音频模型——Stable Audio Open Small。这款仅有3.41亿参数的模型,专为Arm CPU优化,能够在智能手机等移动设备上本地运行,生成高质量音频样本仅需不到8秒。小编深入解析这一技术突破,探索其对音频创作和移动AI生态的深远影响。
模型地址:https://huggingface.co/stabilityai/stable-audio-open-small
技术亮点:超轻量模型,手机本地运行
Stable Audio Open Small以其341M参数的紧凑设计,成为目前市场上最轻量高效的文字转音频模型之一。通过与Arm的深度合作,该模型利用KleidiAI库进行了极致优化,能够在智能手机的Arm CPU上实现不到8秒生成11秒音频的惊人速度。相比其前身Stable Audio Open(11亿参数),新模型在保持高音质的同时大幅降低了计算需求。
小编了解到,该模型采用对抗式后训练(ARC)技术,摒弃了传统的蒸馏或条件生成方法,进一步加速了推理速度。在NVIDIA H100GPU上,生成时间甚至缩短至75毫秒,展现了其在高性能设备上的潜力。无论是音效设计还是音乐样本创作,Stable Audio Open Small都能为用户提供流畅的本地化体验。
专注音效创作:短音频生成的专业利器
Stable Audio Open Small专为生成短音频样本(最长11秒)而设计,适用于音效、鼓点、乐器片段和环境音等场景。用户只需输入简单的英文文本提示,例如“海浪拍打海岸的声音”或“128BPM电子鼓循环”,即可快速生成44.1kHz的立体声音频。小编测试发现,该模型在生成音效和节奏片段时表现出色,音频细节丰富,适合音效设计师、音乐制作人和内容创作者使用。
然而,该模型也有一定局限性。据Stability AI官方文档,其目前仅支持英文提示,且无法生成逼真的歌声或高质量完整歌曲。此外,由于训练数据以西方音乐为主,模型在处理非西方音乐风格时可能表现欠佳。小编建议用户在创作时根据需求调整提示内容,以获得最佳效果。
开源与伦理并重:尊重创作者权益
Stable Audio Open Small的训练数据集全部来自Free Music Archive和Freesound的免版税音频,确保了模型的版权合规性。小编认为,这一举措不仅回应了业界对AI训练数据版权的广泛争议,也为其他AI公司树立了道德标杆。Stability AI表示,模型的训练数据经过严格筛选,剔除了任何未经授权的受版权保护内容。
作为开源项目,Stable Audio Open Small的模型权重已在Hugging Face和GitHub上公开,供开发者免费下载。模型采用Stability AI社区许可,个人用户、研究人员及年收入低于100万美元的企业可免费使用,大型企业则需申请企业许可。这一灵活的许可策略进一步降低了技术门槛,助力全球开发者探索音频生成的应用场景。
行业意义:移动AI与创作普惠化的新篇章
Stable Audio Open Small的发布标志着AI音频生成技术向边缘计算和移动设备的重大迈进。与依赖云端处理的Suno、Udio等竞品不同,该模型的离线运行能力让用户无需互联网连接即可创作音频,特别适合移动场景下的即时需求。小编预测,这款模型将推动智能手机、平板等消费设备的智能化升级,为虚拟主播、游戏音效和教育内容创作等领域带来新机遇。
此外,Stability AI与Arm的合作还为端侧AI的发展提供了范例。小编分析认为,通过优化模型以适配低功耗硬件,Stable Audio Open Small不仅降低了创作成本,还为全球99%的智能手机用户打开了AI音频生成的大门。这种普惠化趋势有望重塑音频创作生态,让更多普通用户参与到专业级音效设计中。
国产AI需加速追赶
作为AI领域的权威媒体,小编对Stable Audio Open Small的发布给予高度评价。其超轻量设计、离线运行能力和开源属性,展现了Stability AI在音频生成领域的深厚积累。然而,这也提醒国内AI企业需加速在端侧AI和开源生态上的布局,以应对全球竞争。

Stability AI发布轻量级341M开放式文字转语音模型,支持手机本地运行,音频创建只需8秒!

Stability AI开源了一款名为Stable Audio Open Small的超轻量文字转语音模型,该模型具有以下特点:

技术亮点

  • 超轻量设计:模型仅有3.41亿参数,是目前市场上最轻量高效的文字转音频模型之一。

  • 本地运行能力强:专为Arm CPU优化,利用KleidiAI库进行极致优化,能在智能手机等移动设备上本地运行,生成高质量音频样本仅需不到8秒。

  • 推理速度快:采用对抗式后训练(ARC)技术,摒弃了传统的蒸馏或条件生成方法,进一步加速了推理速度。在NVIDIA H100 GPU上,生成时间甚至缩短至75毫秒。

功能特点

  • 专注短音频生成:专为生成短音频样本(最长11秒)而设计,适用于音效、鼓点、乐器片段和环境音等场景。用户只需输入简单的英文文本提示,即可快速生成44.1kHz的立体声音频。

  • 音效细节丰富:在生成音效和节奏片段时表现出色,音频细节丰富,适合音效设计师、音乐制作人和内容创作者使用。

限制

  • 仅支持英文提示:目前仅支持英文提示,无法生成逼真的歌声或高质量完整歌曲。

  • 对非西方音乐风格支持有限:由于训练数据以西方音乐为主,模型在处理非西方音乐风格时可能表现欠佳。

开源与许可

  • 训练数据合规:训练数据集全部来自Free Music Archive和Freesound的免版税音频,确保了模型的版权合规性。

  • 灵活的许可策略:模型权重已在Hugging Face和GitHub上公开,个人用户、研究人员及年收入低于100万美元的企业可免费使用,大型企业则需申请企业许可。

行业意义

  • 推动移动AI发展:与依赖云端处理的竞品不同,该模型的离线运行能力让用户无需互联网连接即可创作音频,特别适合移动场景下的即时需求。

  • 普惠化创作:通过优化模型以适配低功耗硬件,降低了创作成本,为全球99%的智能手机用户打开了AI音频生成的大门。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复