研究警示:AI智能体测试过度聚焦编程技能,忽略92%实际劳动力需求
发布时间:2026-03-09 15:32:59 | 责任编辑:张毅 | 浏览量:23 次
卡内基梅隆大学与斯坦福大学的一项最新联合研究指出,当前人工智能智能体(AI Agent)的发展正陷入严重的“路径依赖”。研究显示,现有的 AI 测评基准高度集中于编程任务,却忽视了占美国劳动力市场 92% 的非编程领域。
研究人员系统分析了 43 个主流 AI 基准中的 7.2 万个任务,并将其与美国政府 O*NET 职业数据库中的 1016 种真实职业进行对比。
调查发现的失衡现状:
数字化行业的“基准盲区”:尽管管理类工作的数字化程度高达 88%,但在现有 AI 基准测试中仅占 1.4%;法律工作数字化程度为 70%,其在基准测试中的占比仅为 0.3%。
技能覆盖严重脱节:当前的 AI 测评主要考量“获取信息”和“计算机操作”这两类技能,它们仅覆盖了不到 5% 的美国就业岗位。而现实工作中至关重要的“人际互动”分类,在现有的 AI 测试中几乎无人问津。
复杂度增加导致“能力跳水”:研究发现,AI 智能体的自主性在面对复杂任务时表现极差。即便是在最擅长的软件开发领域,一旦任务步骤增多、逻辑变复杂,AI 的成功率就会出现断崖式下跌。
研究者呼吁,未来的 AI 基准测试应向管理、法律、建筑及工程等高价值、高数字化领域倾斜。同时,测评不应只关注最终结果,更应关注 AI 在执行过程中的中间步骤,以解决目标模糊和验证周期长等现实痛点。
这一结论也得到了市场数据的印证。Anthropic 近期分析显示,其 API 调用中近 50% 仍集中在软件开发。专家警告称,如果 AI 开发继续盲目追求易于自动评分的编程任务,可能会错失 AI 在更广泛经济领域发挥生产力价值的最佳时机。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
