首页 > 快讯 > Stability AI发布轻量级341M开放式文字转语音模型，支持手机本地运行，音频创建只需8秒！

Stability AI发布轻量级341M开放式文字转语音模型，支持手机本地运行，音频创建只需8秒！

发布时间：2025-05-15 12:37:16 | 责任编辑：张毅 | 浏览量：273 次

近日，Stability AI携手芯片巨头Arm，正式开源了一款轻量级文字转音频模型——Stable Audio Open Small。这款仅有3.41亿参数的模型，专为Arm CPU优化，能够在智能手机等移动设备上本地运行，生成高质量音频样本仅需不到8秒。小编深入解析这一技术突破，探索其对音频创作和移动AI生态的深远影响。
模型地址：https://huggingface.co/stabilityai/stable-audio-open-small
技术亮点:超轻量模型，手机本地运行
Stable Audio Open Small以其341M参数的紧凑设计，成为目前市场上最轻量高效的文字转音频模型之一。通过与Arm的深度合作，该模型利用KleidiAI库进行了极致优化，能够在智能手机的Arm CPU上实现不到8秒生成11秒音频的惊人速度。相比其前身Stable Audio Open（11亿参数），新模型在保持高音质的同时大幅降低了计算需求。
小编了解到，该模型采用对抗式后训练（ARC）技术，摒弃了传统的蒸馏或条件生成方法，进一步加速了推理速度。在NVIDIA H100GPU上，生成时间甚至缩短至75毫秒，展现了其在高性能设备上的潜力。无论是音效设计还是音乐样本创作，Stable Audio Open Small都能为用户提供流畅的本地化体验。
专注音效创作:短音频生成的专业利器
Stable Audio Open Small专为生成短音频样本（最长11秒）而设计，适用于音效、鼓点、乐器片段和环境音等场景。用户只需输入简单的英文文本提示，例如“海浪拍打海岸的声音”或“128BPM电子鼓循环”，即可快速生成44.1kHz的立体声音频。小编测试发现，该模型在生成音效和节奏片段时表现出色，音频细节丰富，适合音效设计师、音乐制作人和内容创作者使用。
然而，该模型也有一定局限性。据Stability AI官方文档，其目前仅支持英文提示，且无法生成逼真的歌声或高质量完整歌曲。此外，由于训练数据以西方音乐为主，模型在处理非西方音乐风格时可能表现欠佳。小编建议用户在创作时根据需求调整提示内容，以获得最佳效果。
开源与伦理并重:尊重创作者权益
Stable Audio Open Small的训练数据集全部来自Free Music Archive和Freesound的免版税音频，确保了模型的版权合规性。小编认为，这一举措不仅回应了业界对AI训练数据版权的广泛争议，也为其他AI公司树立了道德标杆。Stability AI表示，模型的训练数据经过严格筛选，剔除了任何未经授权的受版权保护内容。
作为开源项目，Stable Audio Open Small的模型权重已在Hugging Face和GitHub上公开，供开发者免费下载。模型采用Stability AI社区许可，个人用户、研究人员及年收入低于100万美元的企业可免费使用，大型企业则需申请企业许可。这一灵活的许可策略进一步降低了技术门槛，助力全球开发者探索音频生成的应用场景。
行业意义:移动AI与创作普惠化的新篇章
Stable Audio Open Small的发布标志着AI音频生成技术向边缘计算和移动设备的重大迈进。与依赖云端处理的Suno、Udio等竞品不同，该模型的离线运行能力让用户无需互联网连接即可创作音频，特别适合移动场景下的即时需求。小编预测，这款模型将推动智能手机、平板等消费设备的智能化升级，为虚拟主播、游戏音效和教育内容创作等领域带来新机遇。
此外，Stability AI与Arm的合作还为端侧AI的发展提供了范例。小编分析认为，通过优化模型以适配低功耗硬件，Stable Audio Open Small不仅降低了创作成本，还为全球99%的智能手机用户打开了AI音频生成的大门。这种普惠化趋势有望重塑音频创作生态，让更多普通用户参与到专业级音效设计中。
国产AI需加速追赶
作为AI领域的权威媒体，小编对Stable Audio Open Small的发布给予高度评价。其超轻量设计、离线运行能力和开源属性，展现了Stability AI在音频生成领域的深厚积累。然而，这也提醒国内AI企业需加速在端侧AI和开源生态上的布局，以应对全球竞争。

Stability AI开源了一款名为Stable Audio Open Small的超轻量文字转语音模型，该模型具有以下特点：

技术亮点

超轻量设计：模型仅有3.41亿参数，是目前市场上最轻量高效的文字转音频模型之一。
本地运行能力强：专为Arm CPU优化，利用KleidiAI库进行极致优化，能在智能手机等移动设备上本地运行，生成高质量音频样本仅需不到8秒。
推理速度快：采用对抗式后训练（ARC）技术，摒弃了传统的蒸馏或条件生成方法，进一步加速了推理速度。在NVIDIA H100 GPU上，生成时间甚至缩短至75毫秒。

功能特点

专注短音频生成：专为生成短音频样本（最长11秒）而设计，适用于音效、鼓点、乐器片段和环境音等场景。用户只需输入简单的英文文本提示，即可快速生成44.1kHz的立体声音频。
音效细节丰富：在生成音效和节奏片段时表现出色，音频细节丰富，适合音效设计师、音乐制作人和内容创作者使用。

限制

仅支持英文提示：目前仅支持英文提示，无法生成逼真的歌声或高质量完整歌曲。
对非西方音乐风格支持有限：由于训练数据以西方音乐为主，模型在处理非西方音乐风格时可能表现欠佳。

开源与许可

训练数据合规：训练数据集全部来自Free Music Archive和Freesound的免版税音频，确保了模型的版权合规性。
灵活的许可策略：模型权重已在Hugging Face和GitHub上公开，个人用户、研究人员及年收入低于100万美元的企业可免费使用，大型企业则需申请企业许可。

行业意义

推动移动AI发展：与依赖云端处理的竞品不同，该模型的离线运行能力让用户无需互联网连接即可创作音频，特别适合移动场景下的即时需求。
普惠化创作：通过优化模型以适配低功耗硬件，降低了创作成本，为全球99%的智能手机用户打开了AI音频生成的大门。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。