首页 > 快讯 > 视觉语言模型的重大进展!Visual ARFT 增强多模态智能体的效能

视觉语言模型的重大进展!Visual ARFT 增强多模态智能体的效能

发布时间:2025-05-27 17:26:52 | 责任编辑:张毅 | 浏览量:29 次

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。
Visual-ARFT 的核心在于赋予模型 “工具智能体” 的能力。这意味着,模型不仅能够分析和理解图像,还能主动调用外部工具进行搜索或编写代码。这一能力使得模型在面对复杂的多模态问题时,能够自主拆解任务、规划步骤,并完成任务。例如,它可以在分析图像信息后,通过搜索引擎查找所需信息,或者生成 Python 代码处理图像,完成视觉问答。
为了评估 Visual-ARFT 的有效性,研究团队构建了一个新的评测基准 MAT-Bench(多模态智能体工具基准)。该基准包含多个复杂的多跳视觉问答任务,能够准确评估模型在工具调用与多模态推理方面的能力。测试结果显示,使用 Visual-ARFT 方法的模型在多个子任务中均表现优异,超越了 GPT-4o 等先进模型,展现出显著的潜力。
值得一提的是,Visual-ARFT 采用了一种基于强化微调的训练策略,通过简单而高效的奖励机制,驱动模型自主探索如何使用工具,并形成完整的推理过程。研究团队在训练中使用了少量的数据,但却成功提升了模型的多模态智能体能力。
未来,Visual-ARFT 不仅将为智能体能力的发展开辟新路径,还可能在图像处理、智能搜索等多个领域产生深远影响。随着技术的不断进步,我们期待看到更多智能体在复杂场景中的表现,进而推动人工智能的边界不断拓展。
项目地址:https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

视觉语言模型的重大进展!Visual ARFT 增强多模态智能体的效能

Visual ARFT(Visual Agentic Reinforcement Fine-Tuning)是近期在视觉语言模型领域的一项重要突破,它通过强化微调的方式,显著提升了视觉语言模型(LVLMs)的多模态智能体能力。

核心技术与方法

Visual ARFT基于强化学习和可验证奖励机制,通过Group Relative Policy Optimization(GRPO)算法更新模型权重。它针对两种关键任务场景进行优化:

  1. Agentic Search:模型能够对多模态多跳问题进行分析和推理,主动分解任务,规划信息检索路径,并通过调用搜索引擎获取外部知识。

  2. Agentic Coding:模型能够对复杂图像(如模糊、旋转、曝光过强的图像)进行分析,自动生成Python代码完成图像修复或剪裁,提取关键区域以辅助视觉问答。

评估基准

为了评估模型的多模态智能体能力,研究团队构建了多模态智能体工具基准(MAT-Bench),包括:

  • MAT-Search:包含150道多跳视觉问答任务,需要模型调用搜索引擎获取外部知识。

  • MAT-Coding:包含200道复杂图像问答任务,模型需要通过编写代码处理图像。

实验结果

实验结果显示,Visual ARFT在MAT-Bench上取得了显著的性能提升:

  • 在MAT-Coding任务中,Qwen2.5-VL-7B模型通过Visual ARFT实现了+18.56% F1和+13.00% EM的提升,超越了GPT-4o。

  • 在MAT-Search任务中,该模型实现了+10.28% F1和+8.66% EM的提升。

此外,Visual ARFT在其他传统多跳问答基准测试(如2WikiMultihopQA和HotpotQA)中也展现出强大的泛化能力,分别实现了+29.3% F1和+25.9% EM的提升。

未来展望

Visual ARFT为开发开源的多模态智能体提供了一条有前景的路径,它仅需少量标注数据(如20个Agentic Search和1200个Agentic Coding示例)即可实现有效的训练。这一方法不仅提升了模型的多模态推理能力,还减少了对大型技术平台的依赖,为未来AI系统的发展提供了新的可能性。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复