首页 > 快讯 > 研究警示：AI智能体测试过度聚焦编程技能，忽略92%实际劳动力需求

研究警示：AI智能体测试过度聚焦编程技能，忽略92%实际劳动力需求

发布时间：2026-03-09 15:32:59 | 责任编辑：张毅 | 浏览量：98 次

卡内基梅隆大学与斯坦福大学的一项最新联合研究指出，当前人工智能智能体（AI Agent）的发展正陷入严重的“路径依赖”。研究显示，现有的 AI 测评基准高度集中于编程任务，却忽视了占美国劳动力市场 92% 的非编程领域。
研究人员系统分析了 43 个主流 AI 基准中的 7.2 万个任务，并将其与美国政府 O*NET 职业数据库中的 1016 种真实职业进行对比。
调查发现的失衡现状：
数字化行业的“基准盲区”：尽管管理类工作的数字化程度高达 88%，但在现有 AI 基准测试中仅占 1.4%；法律工作数字化程度为 70%，其在基准测试中的占比仅为 0.3%。
技能覆盖严重脱节：当前的 AI 测评主要考量“获取信息”和“计算机操作”这两类技能，它们仅覆盖了不到 5% 的美国就业岗位。而现实工作中至关重要的“人际互动”分类，在现有的 AI 测试中几乎无人问津。
复杂度增加导致“能力跳水”：研究发现，AI 智能体的自主性在面对复杂任务时表现极差。即便是在最擅长的软件开发领域，一旦任务步骤增多、逻辑变复杂，AI 的成功率就会出现断崖式下跌。
研究者呼吁，未来的 AI 基准测试应向管理、法律、建筑及工程等高价值、高数字化领域倾斜。同时，测评不应只关注最终结果，更应关注 AI 在执行过程中的中间步骤，以解决目标模糊和验证周期长等现实痛点。
这一结论也得到了市场数据的印证。Anthropic 近期分析显示，其 API 调用中近 50% 仍集中在软件开发。专家警告称，如果 AI 开发继续盲目追求易于自动评分的编程任务，可能会错失 AI 在更广泛经济领域发挥生产力价值的最佳时机。

这是一篇关于研究预警：AI 智能体测试过于“偏科”编程，忽视了 92% 的真实劳动力市场的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： OpenClaw 2026.3.7新版发布：GPT-5.4全面兼容，智能体“断片”问题迎刃而解

下一篇：腾讯推出WorkBuddy全场景智能体：兼容OpenClaw且支持多模型切换

研究警示：AI智能体测试过度聚焦编程技能，忽略92%实际劳动力需求

最新Ai信息

最新Ai工具

热门AI推荐