首页 > 快讯 > 视觉语言模型的重大进展！Visual ARFT 增强多模态智能体的效能

视觉语言模型的重大进展！Visual ARFT 增强多模态智能体的效能

发布时间：2025-05-27 17:26:52 | 责任编辑：张毅 | 浏览量：376 次

随着人工智能的迅猛发展，尤其是在大型推理模型领域，如 OpenAI 的 o3，研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理，更扩展到了图像理解与操作。近日，来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT（视觉智能体强化微调）的新方法，旨在提升视觉语言模型的多模态智能体能力，使其能够更灵活地执行复杂任务。
Visual-ARFT 的核心在于赋予模型 “工具智能体” 的能力。这意味着，模型不仅能够分析和理解图像，还能主动调用外部工具进行搜索或编写代码。这一能力使得模型在面对复杂的多模态问题时，能够自主拆解任务、规划步骤，并完成任务。例如，它可以在分析图像信息后，通过搜索引擎查找所需信息，或者生成 Python 代码处理图像，完成视觉问答。
为了评估 Visual-ARFT 的有效性，研究团队构建了一个新的评测基准 MAT-Bench（多模态智能体工具基准）。该基准包含多个复杂的多跳视觉问答任务，能够准确评估模型在工具调用与多模态推理方面的能力。测试结果显示，使用 Visual-ARFT 方法的模型在多个子任务中均表现优异，超越了 GPT-4o 等先进模型，展现出显著的潜力。
值得一提的是，Visual-ARFT 采用了一种基于强化微调的训练策略，通过简单而高效的奖励机制，驱动模型自主探索如何使用工具，并形成完整的推理过程。研究团队在训练中使用了少量的数据，但却成功提升了模型的多模态智能体能力。
未来，Visual-ARFT 不仅将为智能体能力的发展开辟新路径，还可能在图像处理、智能搜索等多个领域产生深远影响。随着技术的不断进步，我们期待看到更多智能体在复杂场景中的表现，进而推动人工智能的边界不断拓展。
项目地址：https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

Visual ARFT（Visual Agentic Reinforcement Fine-Tuning）是近期在视觉语言模型领域的一项重要突破，它通过强化微调的方式，显著提升了视觉语言模型（LVLMs）的多模态智能体能力。

核心技术与方法

Visual ARFT基于强化学习和可验证奖励机制，通过Group Relative Policy Optimization（GRPO）算法更新模型权重。它针对两种关键任务场景进行优化：

Agentic Search：模型能够对多模态多跳问题进行分析和推理，主动分解任务，规划信息检索路径，并通过调用搜索引擎获取外部知识。
Agentic Coding：模型能够对复杂图像（如模糊、旋转、曝光过强的图像）进行分析，自动生成Python代码完成图像修复或剪裁，提取关键区域以辅助视觉问答。

评估基准

为了评估模型的多模态智能体能力，研究团队构建了多模态智能体工具基准（MAT-Bench），包括：

MAT-Search：包含150道多跳视觉问答任务，需要模型调用搜索引擎获取外部知识。
MAT-Coding：包含200道复杂图像问答任务，模型需要通过编写代码处理图像。

实验结果

实验结果显示，Visual ARFT在MAT-Bench上取得了显著的性能提升：

在MAT-Coding任务中，Qwen2.5-VL-7B模型通过Visual ARFT实现了+18.56% F1和+13.00% EM的提升，超越了GPT-4o。
在MAT-Search任务中，该模型实现了+10.28% F1和+8.66% EM的提升。

此外，Visual ARFT在其他传统多跳问答基准测试（如2WikiMultihopQA和HotpotQA）中也展现出强大的泛化能力，分别实现了+29.3% F1和+25.9% EM的提升。

未来展望

Visual ARFT为开发开源的多模态智能体提供了一条有前景的路径，它仅需少量标注数据（如20个Agentic Search和1200个Agentic Coding示例）即可实现有效的训练。这一方法不仅提升了模型的多模态推理能力，还减少了对大型技术平台的依赖，为未来AI系统的发展提供了新的可能性。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。