首页 > 快讯 > GAIA评估显示阿里开源的WebAgent项目WebShaper在表现上优于Claude4-Sonnet

GAIA评估显示阿里开源的WebAgent项目WebShaper在表现上优于Claude4-Sonnet

发布时间:2025-07-31 11:22:10 | 责任编辑:张毅 | 浏览量:25 次

阿里云通义实验室近日宣布正式开源其自主搜索AI智能体项目 WebAgent,其中旗舰组件 WebShaper 和 WebSailor 在网络智能体领域引发广泛关注。作为一款突破性的AI工具,WebAgent以其端到端的自主信息检索与多步推理能力,展现出接近甚至超越人类专家的网络交互水平。
WebAgent是阿里巴巴通义实验室开发的一款开源AI智能体,旨在模拟人类在网络环境中的感知、决策和行动循环。其核心目标是通过自主搜索和多步推理,高效处理复杂、模糊的网络任务。WebAgent包含多个关键组件,其中 WebSailor 和 WebShaper 是技术创新的亮点。根据官方介绍,WebAgent能够主动搜索学术数据库、新闻网站和专业论坛,筛选关键信息并生成结构化报告,广泛适用于学术研究、商业分析和日常查询等场景。
在权威评测集 BrowseComp 上,WebSailor-72B模型表现尤为突出,超越了DeepSeek R1和Grok-3等闭源模型,仅次于OpenAI的DeepResearch,登顶开源网络智能体榜单。WebAgent还在 GAIA 和 WebWalkerQA 基准测试中分别取得60.19分和52.2分的优异成绩,展现了其在复杂任务中的卓越性能。
WebShaper 是WebAgent生态中的核心创新,提出了一种基于“形式化驱动”的数据合成方法,解决了AI在高不确定性任务中的推理难题。WebShaper通过集合论构建了信息搜索任务的数学化表示框架,利用“知识投影”概念,将复杂搜索过程抽象为实体集合的操作。例如,查询“出生于90年代的球员在2004-05赛季为东德足球队效力”时,WebShaper能系统化地生成训练数据,确保AI在多步推理中保持准确性。
WebShaper数据集覆盖体育、学术、政治、娱乐等多个领域,其中体育类问题占21%,学术类占17%,确保了知识的广泛适应性。其逐层扩展策略避免了推理捷径和信息冗余,使AI必须通过完整推理路径得出答案。在实验中,WebShaper训练的模型在相同数据量下,性能显著优于WebWalkerQA和E2HQA等传统数据集。
作为WebAgent的“大脑”,WebSailor 是一个大规模语言模型,负责理解用户意图、制定浏览策略并决定操作步骤。其最新版本 WebSailor-72B 通过阿里云FunctionAI实现一键部署,用户仅需10分钟即可完成配置,极大降低了使用门槛。WebSailor在高不确定性任务中表现出色,例如处理模糊查询或需要跨平台信息整合的复杂场景。
WebSailor的训练采用了创新的 SailorFog-QA 数据集,通过子图采样和信息模糊化技术模拟真实网络环境中的复杂知识图谱。这种方法赋予了模型处理“超人类”任务的能力,例如在BrowseComp测试中,WebSailor-32B和72B版本不仅领先所有开源模型,还超越了部分闭源系统。
WebAgent的成功离不开其两大模块:WebDancer 和 WebWalker。WebDancer是一个端到端智能体训练框架,通过四阶段训练(数据构建、轨迹采样、监督微调、强化学习)提升AI的多步搜索能力。其最新版本 WebDancer-QwQ-32B 在GAIA Pass@3评测中取得64.1%的优异成绩。WebWalker则是一个基准测试工具,用于评估语言模型在复杂网页遍历中的表现,为开发者优化算法提供了标准化的评估体系。
WebAgent的混合推理模式通过“思维预算机制”动态分配计算资源,实现快速响应简单查询与深度推理复杂任务的平衡。在实际应用中,WebAgent能在10分钟内完成特斯拉与小鹏汽车配置表的爬取与分析,或从PubMed等数据库提取临床试验数据并生成溯源报告,效率远超人工。
WebAgent的开源不仅降低了企业和开发者的使用成本,还为全球AI社区提供了工业级训练框架和评估标准。其GitHub仓库(https://github.com/Alibaba-NLP/WebAgent)已获超4000次星标,位列GitHub trending第一,Huggingface月度第三。WebSailor的训练策略——高难度任务合成、小规模冷启动、高效强化学习优化——为开源社区攻克复杂推理任务提供了宝贵思路。
从学术研究到商业决策,WebAgent的应用潜力巨大。例如,研究人员可利用其快速检索ACL2025论文主题,商业用户可分析2025年AI芯片市场趋势,普通用户则能获取旅游规划或健康咨询等个性化建议。WebAgent的开源标志着AI智能体从技术演示迈向生产力场景,未来有望推动跨模态信息整合和开放领域推理的进一步突破。

GAIA评估显示阿里开源的WebAgent项目WebShaper在表现上优于Claude4-Sonnet-项目/模型网址:
GitHub Model Scope Hugging Face
GAIA评估显示阿里开源的WebAgent项目WebShaper在表现上优于Claude4-Sonnet

阿里巴巴通义实验室近日开源了自主搜索AI智能体项目 WebAgent,其核心组件 WebShaperWebSailor 在网络智能体领域引发广泛关注。WebAgent 旨在模拟人类在网络环境中的感知、决策和行动循环,通过自主搜索和多步推理处理复杂任务,适用于学术研究、商业分析等场景。

WebShaper 是 WebAgent 的核心创新,采用基于集合论的“形式化驱动”数据合成方法,通过“知识投影”概念将复杂信息搜索任务抽象为实体集合的操作,解决了传统方法在任务覆盖和推理逻辑上的瓶颈 [^4]。WebShaper 在权威评测集 GAIA 中取得 60.19 分的优异成绩,超越所有开源方案,甚至高于 Claude4-Sonnet 的表现 [^4][^6]。此外,WebShaper 在 WebWalkerQA 基准测试中也取得 52.2 分,成为表现最好的系统 [^4]。

WebAgent 的开源为 AI 社区提供了工业级训练框架和评估标准,其 GitHub 仓库和 Hugging Face 数据集已上线,供开发者进一步探索和应用 [^6]。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐