首页 > 快讯 > 谷歌与UIUC协作推出Search-R1:大模型实现搜百度同步解题

谷歌与UIUC协作推出Search-R1:大模型实现搜百度同步解题

发布时间:2025-04-21 17:18:24 | 责任编辑:吴昊 | 浏览量:29 次

最近AI圈炸出一项黑科技——让语言模型学会自己上网查资料!不仅考试分数暴涨41%,还解锁了"边推理边搜索"的究极形态。今天带你们围观这场学术界的"作弊式进化",看完保证你想给自家AI办张网吧会员卡!
论文地址:https://arxiv.org/abs/2503.09516
代码地址:下方
hugging face 主页:下方
学霸的逆袭秘籍:给AI装个"人肉搜索插件"
话说在某个月黑风高的实验室,一群教授盯着电脑屏幕集体瞳孔地震——他们家的AI做题时居然学会了"偷看小抄"!这波操作源自伊利诺伊大学的最新论文《Search-R1》,简单来说就是给语言模型装了个人工智障版"搜索引擎外挂"。
传统AI做题就像开卷考试:你先把维基百科塞它脑子里(RAG技术),结果这货要么翻错页,要么对着菜谱答高数题。而Search-R1的骚操作在于:让AI自己决定什么时候该查资料!就像学霸做题时突然拍大腿:"这道题得查2018年维基百科第三段!"
更绝的是,这货还进化出了"查资料如追剧"的技能:先推理三步,查一波资料;再推理五步,又查一波资料。整个过程宛如你和闺蜜聊八卦——"你知道吗?""快说!""然后呢?""我再查查..."(此处应有人工智能版吃瓜表情包)
三大黑科技:把搜索引擎玩成剧本杀
1. "和谷歌谈恋爱"训练法
研究人员祭出了强化学习这面大旗,把搜索引擎调教成了AI的"恋爱对象"。每次AI想查资料,就要用

标签主动"表白",等搜索引擎返回

情书。要是查的资料不对,系统还会傲娇地回怼:"你查的什么鬼?重想!"
这招有多狠?传统方法就像逼着AI背整本辞海,Search-R1却让AI学会了"精准撩机"——知道什么时候该问"量子纠缠",什么时候该搜"周杰伦新专辑"。
2. "查资料不扣分"潜规则
为了防止AI变成Ctrl+C/V狂魔,科学家发明了"检索令牌面具术"(Retrieved Token Masking)。简单说就是:AI自己写的答案要考试打分,抄来的资料不算分。这就好比允许带小抄进考场,但判卷时只批改自己写的部分——既防作弊,又能合理开挂。
3. "通关奖励"玄学
最离谱的是奖励机制!研究人员居然只用"最终答案对不对"这个标准来训练,中间查了多少次资料、推理多复杂统统不管。这就好比导师改论文时只看结论页,但AI竟然自己悟出了"先查三篇文献再编结论"的生存之道!
实验结果:碾压全场的"作弊式"高分
在七大考场(数据集)的终极PK中,Search-R1上演了AI界的"学渣逆袭":
面对7B参数的大模型,成绩直接比传统方法暴涨41%,相当于从二本线飙到985
就连3B参数的"小短腿"模型,也能实现20%的飞跃,宛如小学生吊打初中奥数题
在多轮推理的"地狱模式"(HotpotQA)中,准确率从18.3%蹿升到43.3%,比坐火箭还刺激
更气人的是,这货还开发了"越查资料越聪明"的被动技能:训练后期,AI学会了一题查四次资料,活像考试时把监考老师当人肉Siri使唤!
导师看了都失眠的魔鬼细节
PPO vs GRPO 宫斗大戏
两种强化学习算法上演"争宠"戏码:GRPO前期进步神速,但容易"走火入魔";PPO虽然慢热,但稳如老狗。最终教授们含泪选择PPO——毕竟谁都不想看到AI突然开始用谷歌搜索"如何毁灭人类"。
基础模型 vs 微调模型
原本以为经过"特训"的模型会碾压基础版,结果发现只要给足强化学习时间,原始模型也能逆袭!这波操作相当于证明:哪怕是个AI傻白甜,只要会查资料也能成学霸。
答案越写越短的玄学
训练初期AI的答案像老太太的裹脚布,后来突然开窍学会"用最少的字装最大的X"。研究人员盯着屏幕恍然大悟:"原来AI也懂微信60秒语音的痛!"
未来展望:AI界的"百度百科成精记"
现在的Search-R1还只是个"乖巧版谷歌依赖症患者",但教授们已经预见了这些骚操作:
让AI学会"不确定时就查资料",解决一本正经胡说八道的毛病
结合图像搜索,解锁"看图写小作文"技能
开发"查微博知八卦,搜知乎装大神"的全网冲浪模式
最让人细思极恐的是——当AI学会自己搜索学习,人类的知识壁垒会不会被彻底打破?毕竟现在它已经能用谷歌写论文了,保不齐哪天就自己开公众号教人谈恋爱了!

谷歌与UIUC协作推出Search-R1:大模型实现搜百度同步解题-项目/模型网址:
GitHub Hugging Face
谷歌与UIUC协作推出Search-R1:大模型实现搜百度同步解题

UIUC(伊利诺伊大学香槟分校)联合谷歌发布了一个名为Search-R1的大模型,该模型通过强化学习(Reinforcement Learning)实现了大语言模型(LLM)在推理过程中自主调用搜索引擎的能力。以下是关于Search-R1的详细介绍:

技术原理

  • 搜索增强的强化学习框架:Search-R1引入了一个可交互的“搜索引擎模块”,模型在生成答案的过程中可以随时发起搜索请求,获取外部知识以提升推理质量。它通过环境交互式学习,训练大模型自主掌握推理与搜索交替进行的策略。
  • 多轮搜索调用机制:模型可以进行多轮推理与搜索交替进行。在回答问题前,模型会先通过推理判断当前知识是否足够,若不足则触发搜索关键词,系统自动调用搜索引擎并将结果插入上下文,模型再根据新信息继续推理,直至输出答案。
  • 结构化的训练模板:设计了简单但有效的训练模板,统一所有训练样本的格式,指导大语言模型以结构化的方式与外部搜索引擎进行交互,同时保留策略空间的灵活性。
  • 轻量的奖励设计:采用基于最终回答准确性的奖励函数,无需构建额外的神经网络打分模型,提升了训练效率并降低了策略对奖励信号偏差的敏感性。

性能表现

  • 显著的性能提升:Search-R1在多个问答任务的数据集上取得了领先表现。其中,Qwen2.5-7B模型平均相对提升41%,3B模型提升20%,相比传统RAG和CoT等方法具有显著优势。
  • 稳健的零样本和跨任务迁移能力:在零样本和跨任务迁移场景中,如PopQA、Musique、Bamboogle等模型未见过的任务中,Search-R1依然保持显著优势。
  • 对搜索行为的敏感性:更大的模型对搜索行为更敏感、效果更好,7B模型相较3B展现出更大的性能提升。

训练策略

  • RL优化策略比较:Search-R1对两种RL优化策略PPO和GRPO进行了系统比较。GRPO收敛更快,但在训练后期可能存在不稳定性;PPO表现更稳定,最终性能略高于GRPO,成为默认推荐配置。
  • Base模型与Instruct模型表现:Instruct模型初始表现更好,训练收敛更快;但随着训练推进,Base模型最终可达到相近甚至更优的效果,强化学习弥合了两者在结构化推理任务中的能力差异。

意义与展望

Search-R1作为一种全新的强化学习框架,使大语言模型能够在生成过程中灵活调用搜索引擎,实现推理与外部检索的深度融合。它无需大规模监督数据,而是通过强化学习自主学习查询与信息利用策略。未来,该框架有望扩展到更多工具与信息源的协同调用,并探索其在多模态推理任务中的应用潜力。

需要注意的是,虽然Search-R1展示了强大的搜索增强推理能力,但它并不直接“边查百度边答题”。其搜索功能是通过与搜索引擎模块的交互实现的,而具体的搜索引擎可以是多种类型的。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复