首页 > 快讯 > Omni-R1 新型音频问答系统：借助文本驱动的强化学习与自动数据生成革新音频问答

Omni-R1 新型音频问答系统：借助文本驱动的强化学习与自动数据生成革新音频问答

发布时间：2025-05-20 12:20:18 | 责任编辑：吴昊 | 浏览量：66 次

最近，一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上，通过一种名为 GRPO（Group Relative Policy Optimization）的强化学习方法进行优化，显示出在音频问答任务中的出色表现。
Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩，涵盖了声音、语音和音乐等多个音频类别。研究团队指出，尽管模型的训练涉及音频数据，但其性能提升的主要原因竟然是文本推理能力的增强。这一发现让人惊讶，因为即使仅使用文本数据进行微调，模型的表现也取得了显著的提升。
为此，研究人员利用 ChatGPT 生成了大量音频问答数据，创建了两个新的数据集:AVQA-GPT 和 VGGS-GPT。这两个数据集分别包含4万和18.2万条音频数据，进一步提升了 Omni-R1的准确性。在训练过程中，Omni-R1的表现超过了以往的基线模型，包括 SARI，平均得分达到71.3%。研究表明，尽管使用音频进行微调稍微优于仅使用文本，但后者的贡献同样不可忽视。
GRPO 方法的一个关键优点是其内存效率，使得在48GB 的 GPU 上能够有效运行。该方法通过比较分组输出，基于答案的正确性来进行奖励，而无需使用复杂的价值函数。研究人员通过扩展 Qwen-2Audio 的音频描述来增加训练数据，这种策略使得模型在多模态任务上更具竞争力。
Omni-R1不仅在音频问答领域设立了新的标杆，还展示了文本推理在音频模型性能中的重要性。未来，研究团队承诺将发布所有相关资源，以便更多研究人员和开发者能够利用这一成果。
论文:https://arxiv.org/abs/2505.09439
划重点:
🔍 Omni-R1是基于 Qwen2.5-Omni 模型，通过 GRPO 强化学习方法优化而成的音频问答模型。
📈 该模型在 MMAU 基准测试中取得了新高度，文本推理能力的提升被认为是主要原因。
🛠️ 研究团队通过 ChatGPT 生成新数据集，极大地提升了模型的训练效果和准确性。

Omni-R1 是一种基于多模态大语言模型 Qwen2.5-Omni 的音频问答模型，通过文本驱动的强化学习和自动生成的数据来提升音频问答性能。以下是关于该模型的详细介绍：

模型架构与方法

基础模型：Omni-R1 基于 Qwen2.5-Omni-7B 多模态大语言模型，该模型能够处理文本、音频等多种模态数据。
强化学习方法：采用群体相对策略优化（GRPO）方法对模型进行微调。GRPO 通过对比多个候选答案，选择逻辑更清晰、推理更合理的输出，从而提升模型的推理能力。
文本驱动的强化学习：研究发现，GRPO 带来的性能提升在很大程度上归因于更好的文本推理能力。即使在没有音频输入的情况下，仅通过文本数据集进行微调，也能有效提升基于音频的任务表现。

数据生成与训练

自动生成问答数据集：Omni-R1 利用 ChatGPT 自动生成音频问答数据集。首先从音频 LLM 获取基于音频的文本说明，然后使用这些说明提示 ChatGPT 生成问题和答案，包括一个正确答案和三个相似但错误的选项。
扩展数据集：该方法为 AVQA 数据集生成了 4 万个音频的问题，命名为 AVQA-GPT；并扩展到 VGGSound 数据集的 18.2 万个音频文件，命名为 VGGS-GPT。

性能表现

在 MMAU 基准测试中达到 SOTA：Omni-R1 在 MMAU 基准测试的 Test-mini 和 Test-full 数据分割中，于声音、音乐、语音及整体平均类别上均取得了最高的准确率。
文本推理能力的提升：实验表明，即使不使用音频数据，仅通过文本微调也能显著提升音频问答任务的性能，这表明强化学习不仅提升了音频理解能力，还增强了模型的整体泛化能力。

创新点与贡献

无需复杂提示或显式推理：Omni-R1 通过简化的 GRPO 微调，在无需复杂提示或显式推理的情况下实现了 SOTA 性能。
自动生成数据集：通过自动生成音频问答数据集，扩展了可用于训练的数据规模，进一步提升了模型性能。
揭示文本推理对音频任务的影响：研究发现仅通过文本微调就能提升音频任务的表现，为未来多模态模型的研究提供了新的方向。

Omni-R1 的研究不仅在音频问答任务上取得了显著进展，还展示了强化学习和文本驱动方法在提升多模态模型性能方面的潜力。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。