实际测试显示:GPT-5.2 在远程自动化编程任务上比 Claude Opus 4.5 表现更好
发布时间:2026-01-15 18:37:19 | 责任编辑:张毅 | 浏览量:14 次
知名 AI 编程辅助工具Cursor近日分享了一项内部测试发现:在处理超长程、自主性的编程任务时,OpenAI 最新的GPT-5.2模型表现出比 Anthropic 的Claude Opus4.5更高的可靠性。为了验证模型能力,Cursor 团队尝试从零开始构建一个功能完备的Web 浏览器,涵盖了 HTML 解析、CSS 布局及自定义 JavaScript 虚拟机等复杂底层架构。
实测结果显示,GPT-5.2在这种需要数百万行代码、耗时数周的“长跑式”任务中,能够更精准地遵循复杂指令,并保持极高的专注度,有效避免了长程任务中常见的“目标漂移”问题。相比之下,Claude Opus4.5虽然在许多场景表现出色,但在处理此类极大规模工程时,往往更倾向于中途停止或寻找捷径,提前交出控制权。
目前,Cursor已在其平台上同步上线了GPT-5.2模型,旨在探索 AI 代理是否能独立完成通常需要人类团队花费数月才能完成的大型项目。除了浏览器实验,该模型还成功完成了包括 Windows7模拟器及超百万行代码的复杂迁移任务,展现了生成式 AI 在自主工程领域的巨大潜力。
划重点:
🚀 长程任务优势: Cursor指出GPT-5.2在长时间、大规模的自主编程任务中,比Claude Opus4.5更能专注目标,不偷懒、不掉链子。
🌐 硬核实测案例: 团队利用 AI 代理从零编写了 Rust 版本的浏览器内核,证明了模型在处理数百万行代码时的工程落地能力。
🛠️ 效率大幅提升: 在特定任务中,AI 代理重写的渲染管线性能提升了25倍,且能自动添加平滑缩放和动态模糊等复杂视觉效果。
这是一篇关于Cursor 实测:在长程自动化编程任务中,GPT-5.2 表现优于 Claude Opus 4.5的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
