StepFun AI 推出升级音频大语言模型 Step-Audio-R1,显著增强音频理解力
发布时间:2025-12-01 18:19:36 | 责任编辑:吴昊 | 浏览量:6 次
StepFun AI 团队近日推出了新的音频大语言模型 Step-Audio-R1,该模型在生成推理时可以有效利用计算资源,解决了当前音频 AI 模型在处理长推理链时准确性下降的问题。研究团队指出,这一问题并非音频模型固有的局限,而是由于训练过程中采用了文本替代推理的方式。
目前大多数音频模型在训练时主要依赖于文本数据,导致它们的推理过程更像是阅读文字,而非实际聆听声音。StepFun 团队称这一现象为 “文本替代推理”。为了应对这一问题,Step-Audio-R1要求模型在生成答案时必须基于音频证据进行推理。这一做法通过一种称为 “模态化推理蒸馏” 的训练方法来实现,该方法特别选取并提炼出与音频特征相关的推理轨迹。
在架构上,Step-Audio-R1基于 Qwen2音频编码器,对原始波形进行处理,并通过音频适配器将输出下采样至12.5Hz。然后,Qwen2.532B 解码器消耗音频特征并生成文本。模型在生成答案时,始终会在特定标签内生成明确的推理块,这样可以确保推理的结构和内容得以优化,同时不影响任务的准确性。
训练过程中,模型经历了监督冷启动阶段和强化学习阶段,涉及文本和音频任务的混合。在冷启动阶段,团队使用了500万例样本,涵盖了1亿个文本标记和40亿个音频配对数据。在这一阶段,模型学习如何生成对音频和文本都有用的推理,并建立了基本的推理能力。
通过多轮 “模态化推理蒸馏”,研究团队从音频问题中提取出真实的声学特征,并用强化学习进一步优化模型的推理能力。Step-Audio-R1在多个音频理解与推理基准测试中表现出色,其综合得分接近行业领先的 Gemini3Pro 模型。
论文:https://arxiv.org/pdf/2511.15848
划重点:
🔊 StepFun AI 推出的 Step-Audio-R1解决了音频推理中的准确性下降问题,采用模态化推理蒸馏方法。
📈 该模型基于 Qwen2架构,能够在推理时明确区分思考过程和最终答案,提升了音频处理能力。
🏆 在多个基准测试中,Step-Audio-R1的表现超过了 Gemini2.5Pro,并与 Gemini3Pro 相当。
这是一篇关于StepFun AI 发布全新音频大语言模型 Step-Audio-R1,音频推理能力显著提升的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
