首页 > 快讯 > 腾讯ARC开放声学框架 AudioStory:利用大型语言模型制作长音频内容

腾讯ARC开放声学框架 AudioStory:利用大型语言模型制作长音频内容

发布时间:2025-09-01 10:56:08 | 责任编辑:吴昊 | 浏览量:87 次

近日,腾讯 ARC 团队发布了一款名为 AudioStory 的模型,旨在利用大语言模型(LLMs)生成长篇叙事音频。该模型解决了现有文本到音频生成技术在处理短音频方面的优势与长篇叙事音频在时间连贯性与组合推理上的挑战。
AudioStory 的核心在于其统一的理解与生成框架。该模型能够处理视频配音、音频延续和长篇叙事音频合成等多种任务。通过将大语言模型与音频生成系统结合,AudioStory 能够生成结构化且具有时间一致性的音频叙事。该模型具有强大的指令跟随推理生成能力,可以将复杂的叙事查询分解为按时间顺序排列的子任务,同时保持场景转换的连贯性和情感基调的一致性。
AudioStory 的两个显著特点包括:首先,去耦合的桥接机制,能够有效地将大语言模型与音频生成器之间的协作分成两个专业化的部分;其次,端到端的训练方式,统一指令理解与音频生成,提升了组件之间的协同效应。
此外,研究团队还建立了一个名为 AudioStory-10K 的基准数据集,涵盖动画音景和自然声音叙事等多样化领域。通过大量实验,AudioStory 在单音频生成和叙事音频生成方面的表现优于以往的文本到音频生成模型,展现出卓越的指令跟随能力和音频质量。
目前,团队已经发布了模型的推理代码,并展示了一系列演示视频,包括经典动画《猫和老鼠》的配音示例,以及基于文本生成长音频的应用案例,展示了该模型的广泛适用性和强大功能。
项目:https://github.com/TencentARC/AudioStory
划重点:
🎧 **AudioStory 是腾讯 ARC 推出的长篇叙事音频生成模型,结合了大语言模型和音频生成技术。**
📊 ** 模型具有强大的指令跟随能力,能够生成连贯的音频叙事,提升用户体验。**
🛠️ ** 团队已发布推理代码,并展示多个应用案例,展现其在视频配音和长音频生成上的优势。**

腾讯ARC开放声学框架 AudioStory:利用大型语言模型制作长音频内容
腾讯 ARC 实验室最新开源的 AudioStory 模型,标志着 AI 音频生成技术从“单点音效”迈向“长篇叙事”的新阶段

核心突破

  • 统一框架:首次将大语言模型(LLM)与文本到音频(TTA)系统深度结合,形成支持长篇叙事音频生成的端到端架构

  • 解耦桥接机制:创新性地分离“语义 token”(负责叙事逻辑)与“残差 token”(保留声学细节),有效解决了长音频生成中的时序一致性与语义连贯性问题

  • 渐进式训练:采用三阶段训练策略(单音生成→协同优化→长篇叙事),确保模型在复杂场景下仍能保持高保真度与叙事能力

能力表现

  • 超长音频生成:可生成长达 150 秒 的连贯叙事音频,远超传统模型

  • 高指令遵循性:在自建的 AudioStory-10K 基准数据集(涵盖自然声景与动画音效)测试中,CLAP 文本-音频对齐得分提升 17.85%

  • 场景应用:支持视频配音、音频续写、复杂叙事合成等任务,如经典动画《猫和老鼠》的自动配音

开源信息

  • 代码与演示:推理代码已开源,并配有多个演示视频,展示其在实际应用中的广泛适用性

  • 项目地址GitHub - TencentARC/AudioStory

AudioStory 的发布,不仅为内容创作者提供了强大的音频叙事工具,也推动了多模态 AI 在沉浸式媒体领域的进一步发展

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐