WebWatcher:阿里新开发的多模态深度研究智能系统
发布时间:2025-08-18 12:08:15 | 责任编辑:张毅 | 浏览量:294 次
阿里巴巴自然语言处理团队宣布推出WebWatcher,这是一个开源的多模态深度研究智能体,旨在突破现有闭源系统和开源Agent在多模态深度研究领域的局限性。WebWatcher通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种工具,能够像人类研究员一样处理复杂的多模态任务,展现出强大的视觉理解、逻辑推理、知识调用、工具调度和自我验证能力。
WebWatcher的开发团队指出,尽管现有的闭源系统如OpenAI的DeepResearch在文本深度研究方面表现出色,但它们大多局限于纯文本环境,难以处理现实世界中复杂的图像、图表和混合内容。而现有的开源Agent也面临两大瓶颈:一类是专注于文本检索的Agent,虽然能够整合信息,但无法处理图像;另一类是视觉Agent,虽然能够识别图像,但缺乏跨模态推理和多工具协同能力。WebWatcher正是为了解决这些瓶颈而设计的。
WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,其核心目标是让多模态Agent在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。为此,研究团队设计了一个全自动多模态数据生成流程,通过随机游走收集跨模态知识链,并引入信息模糊化技术,提升任务的不确定性和复杂性。所有复杂问题样本通过QA-to-VQA转换模块扩展为多模态版本,进一步增强了模型的跨模态理解能力。
在高质量推理轨迹构建与后训练方面,WebWatcher采用了Action-Observation驱动的轨迹生成方法,通过收集真实的多工具交互轨迹并进行监督微调(SFT),让模型在训练初期快速掌握多模态ReAct式推理和工具调用的基本模式。随后,模型进入强化学习阶段,通过GRPO进一步提升多模态Agent在复杂环境下的决策能力。
为了全面验证WebWatcher的能力,研究团队提出了BrowseComp-VL,这是BrowseComp在视觉-语言任务上的扩展版本,旨在逼近人类专家的跨模态研究任务难度。在多轮严格评测中,WebWatcher在复杂推理、信息检索、知识整合以及聚合类信息寻优等任务上全面领先于当前主流的开源与闭源多模态大模型。
具体来说,在人类终极考试(Humanity’s Last Exam,HLE-VL)这一多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数一举夺魁,大幅领先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和Qwen2.5-VL-72B(8.6%)等代表性模型。在更贴近真实多模态搜索的MMSearch评测中,WebWatcher的Pass@1得分高达55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅领先。在LiveVQA评测中,WebWatcher的Pass@1成绩达到58.7%,领先于其他主流模型。在最具综合挑战的BrowseComp-VL基准上,WebWatcher以27.0%的平均得分(Pass@1)遥遥领先,成绩提升超过一倍。
仓库地址:https://github.com/Alibaba-NLP/WebAgent
阿里巴巴近日正式推出了首个开源多模态深度研究智能体 WebWatcher,旨在突破现有闭源和开源Agent在多模态复杂研究任务中的局限性。
一、WebWatcher的定位与创新
WebWatcher的核心创新在于其增强的视觉语言推理能力,能够像人类研究员一样,综合运用网页浏览、图像搜索、OCR、代码解释器等多种工具,处理图文混合的复杂任务。
-
突破文本限制:相比OpenAI的DeepResearch等闭源系统,WebWatcher首次在开源领域实现了对图像、图表、网页结构等多模态内容的深度理解。
-
多工具协同:用户上传一张图片后,WebWatcher可自动调用“图片搜索”找相关图、用“OCR”提取文字、用“文字搜索”查背景、用“网页访问”看具体内容,甚至用“代码工具”算数据。
二、技术亮点
WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,具体包括:
-
多模态高难度数据生成:通过“随机游走”方式,在网页文本、图片、图表等异构内容中采样,构建覆盖多领域实体的动态关联图谱。
-
复杂推理链构建:引入信息模糊化技术,提升任务复杂性,所有复杂问题样本通过QA-to-VQA转换模块扩展为多模态版本。
-
高难度基准评测:提出了BrowseComp-VL基准,专门用于验证多模态深度推理能力,逼近人类专家的跨模态研究任务难度。
三、性能表现
在四个具有挑战性的VQA(视觉问答)基准测试中,WebWatcher全面超越GPT-4o、Gemini2.5-flash、Qwen2.5-VL-72B、Claude 3.7等主流模型:
-
Humanity’s Last Exam (HLE)-VL(复杂推理)
-
BrowseComp-VL(信息检索)
-
LiveVQA(知识整合)
-
MMSearch(聚合类信息寻优)
四、开源与未来展望
WebWatcher已开源发布,相关代码和论文已公开。这一举措不仅标志着国内在多模态AI研究上的重要进展,也为未来多模态深度研究Agent的发展提供了新的方向。
总结
WebWatcher的推出,不仅填补了现有开源Agent在多模态复杂研究任务上的空白,更为AI Agent领域树立了新的技术标杆。未来,WebWatcher有望在学术研究、商业分析、信息检索等多个领域发挥重要作用。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。