首页 > 快讯 > StepFun AI 推出升级音频大语言模型 Step-Audio-R1，显著增强音频理解力

StepFun AI 推出升级音频大语言模型 Step-Audio-R1，显著增强音频理解力

发布时间：2025-12-01 18:19:36 | 责任编辑：吴昊 | 浏览量：186 次

StepFun AI 团队近日推出了新的音频大语言模型 Step-Audio-R1，该模型在生成推理时可以有效利用计算资源，解决了当前音频 AI 模型在处理长推理链时准确性下降的问题。研究团队指出，这一问题并非音频模型固有的局限，而是由于训练过程中采用了文本替代推理的方式。
目前大多数音频模型在训练时主要依赖于文本数据，导致它们的推理过程更像是阅读文字，而非实际聆听声音。StepFun 团队称这一现象为 “文本替代推理”。为了应对这一问题，Step-Audio-R1要求模型在生成答案时必须基于音频证据进行推理。这一做法通过一种称为 “模态化推理蒸馏” 的训练方法来实现，该方法特别选取并提炼出与音频特征相关的推理轨迹。
在架构上，Step-Audio-R1基于 Qwen2音频编码器，对原始波形进行处理，并通过音频适配器将输出下采样至12.5Hz。然后，Qwen2.532B 解码器消耗音频特征并生成文本。模型在生成答案时，始终会在特定标签内生成明确的推理块，这样可以确保推理的结构和内容得以优化，同时不影响任务的准确性。
训练过程中，模型经历了监督冷启动阶段和强化学习阶段，涉及文本和音频任务的混合。在冷启动阶段，团队使用了500万例样本，涵盖了1亿个文本标记和40亿个音频配对数据。在这一阶段，模型学习如何生成对音频和文本都有用的推理，并建立了基本的推理能力。
通过多轮 “模态化推理蒸馏”，研究团队从音频问题中提取出真实的声学特征，并用强化学习进一步优化模型的推理能力。Step-Audio-R1在多个音频理解与推理基准测试中表现出色，其综合得分接近行业领先的 Gemini3Pro 模型。
论文：https://arxiv.org/pdf/2511.15848
划重点:
🔊 StepFun AI 推出的 Step-Audio-R1解决了音频推理中的准确性下降问题，采用模态化推理蒸馏方法。
📈 该模型基于 Qwen2架构，能够在推理时明确区分思考过程和最终答案，提升了音频处理能力。
🏆 在多个基准测试中，Step-Audio-R1的表现超过了 Gemini2.5Pro，并与 Gemini3Pro 相当。

这是一篇关于StepFun AI 发布全新音频大语言模型 Step-Audio-R1，音频推理能力显著提升的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Sora 2的“破坏者”并未如预期般轰动：首周虽获100万次下载，但60天后留存率几近于无

下一篇： FeelFish 智能上下文功能，让写 AI 长篇小说剧情不跑偏

StepFun AI 推出升级音频大语言模型 Step-Audio-R1，显著增强音频理解力

最新Ai信息

最新Ai工具

热门AI推荐