艾伦劳德研究所发起“弹弓”AI支持项目:15支队伍被选中,革新AI评价体系
发布时间:2025-11-07 09:39:12 | 责任编辑:张毅 | 浏览量:5 次
周四,劳德研究所(Loud Institute)宣布启动首批“弹弓(Slingshot)”人工智能资助计划,旨在“推进人工智能的科学与实践”。该计划通过为研究人员提供传统学术机构难以匹配的资源——包括资金、计算能力以及产品和工程支持——以加速AI研究与落地创新。作为回报,受助者需产出可实际转化的成果,如初创公司、开源项目或其他形式的研究成果。
首批共有 15个项目入选,重点聚焦当前人工智能领域最具挑战性的议题之一——AI评估体系。其中多个项目已经在业界拥有知名度,如命令行编码基准测试工具 Terminal Bench,以及长期关注通用人工智能(AGI)能力测评的 ARC-AGI 项目最新版本。
与此同时,多支团队正尝试以全新视角解决评估瓶颈。加州理工学院与德克萨斯大学奥斯汀分校合作开发的 Formula Code 项目,旨在评估AI代理在优化现有代码时的表现;哥伦比亚大学团队推出的 BizBench,则面向“白领AI代理”构建综合测试标准,聚焦AI在商业和决策类任务中的真实表现。此外,还有部分项目探索强化学习与模型压缩的新方法,以建立更具普适性和可扩展性的评估框架。
值得关注的是,SWE-Bench 联合创始人 John Boda Yang 也加入了本轮计划,他将领导新项目 CodeClash。该项目受SWE-Bench成功经验启发,计划通过动态、竞赛式机制评估AI代码能力。
Yang在接受TechCrunch采访时表示:“我认为持续利用第三方核心基准进行开放评估,是推动整个行业进步的关键。但我也担心,未来的评测体系若被个别公司垄断,将可能削弱研究的开放性与可比性。”
通过“弹弓”计划,劳德研究所正试图在学术与产业之间搭建新的桥梁,使前沿AI研究成果能够更快地转化为实际应用。这一举措被视为当前AI领域评估体系重塑的重要一步。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
