首页 > 快讯 > 字节跳动开源Multi-SWE-bench,推动大模型代码智能升级

字节跳动开源Multi-SWE-bench,推动大模型代码智能升级

发布时间:2025-04-10 14:44:47 | 责任编辑:字母汇 | 浏览量:27 次

《字节跳动开源Multi-SWE-bench,推动大模型代码智能升级》相关软件官网

字节跳动开源

近日,字节跳动豆包大模型团队宣布开源Multi-SWE-bench,这是业内首个多语言代码修复基准数据集,为大模型“自动修Bug”能力的评估与提升带来新突破。
在大模型技术快速发展的当下,代码生成任务成为检验模型智能的关键领域。以SWE-bench为代表的代码修复基准,虽能衡量模型的编程智能,但存在明显局限。其仅聚焦Python语言,无法评估模型跨语言泛化能力;且任务难度有限,难以覆盖复杂开发场景,制约了大模型代码智能的进一步发展。
面向不同模型代码能力评测分数
Multi-SWE-bench应运而生,它在SWE-bench基础上实现重大跨越,首次覆盖Java、TypeScript、C、C++、Go、Rust和JavaScript等7种主流编程语言,构建了1632个源于真实开源仓库的修复任务。这些任务经过严格筛选与人工验证,确保质量可靠。同时,Multi-SWE-bench引入难度分级机制,分为简单、中等、困难三类,能更全面评估模型在不同能力层次的表现。
基于该数据集的实验显示,当前大语言模型在Python修复上表现尚可,但处理其他语言时平均修复率不足10%,凸显多语言代码修复仍是大模型面临的挑战。
部分主流模型在 Python 上表现更为优异,面向其他语言则分数不佳。同时,随着任务难度增加,模型修复率呈现逐级下降趋势。
为配合强化学习在自动编程领域的应用,团队还同步开源了Multi-SWE-RL,提供4723个实例及配套的可复现Docker环境,支持一键启动、自动评估等功能,为RL训练打造了标准化数据基础。此外,团队启动开源社区计划,诚邀开发者和研究者参与数据集扩展、新方法评测等工作,共同推进RL for Code生态建设。
字节跳动豆包大模型团队表示,希望Multi-SWE-bench能推动自动编程技术迈向新高度,未来将持续拓展其覆盖范围,助力大模型在“自动化软件工程”领域取得更大进展。

字节跳动开源Multi-SWE-bench,推动大模型代码智能升级-项目/模型网址:
GitHub Hugging Face
字节跳动开源Multi-SWE-bench,推动大模型代码智能升级

字节跳动旗下豆包大模型团队于2025年4月10日正式开源Multi-SWE-bench,这是首个覆盖7种主流编程语言的代码修复评测基准,旨在系统性评估和提升大模型的**“自动修Bug”能力**,推动AI编程向**“全栈工程师”**迈进。

Multi-SWE-bench的核心特点

  1. 多语言覆盖
    • 在传统SWE-bench(Python)基础上,新增Java、Go、Rust、C、C++、TypeScript、JavaScript,共7种语言,更贴近真实软件开发环境。
    • 数据来自1,632个GitHub Issue,涵盖39个高质量开源仓库,确保任务真实性和复杂性。
  2. 难度分级机制
    • 问题按修复时间分为**简单(≤15分钟)、中等(15分钟-1小时)、困难(≥1小时)**三类,更精准衡量模型能力。
    • 当前模型在简单任务上表现较好,但困难任务解决率接近0%,凸显技术瓶颈。
  3. 严谨的数据构建流程
    • 采用五阶段流水线(仓库筛选→PR采集→Docker环境构建→语义验证→人工复核),确保数据质量。
    • 每个实例经双重标注+交叉审查,人工验证准确率超80%。

当前大模型的性能表现

  • Python仍占优:部分模型解决率超50%,但其他语言(如TypeScript、Java)普遍低于10%。
  • 语言类型差异
    • **高级语言(Python、Java)**表现最佳;
    • **系统语言(Go、Rust)**次之;
    • **Web开发语言(TypeScript、JavaScript)和低级语言(C/C++)**最弱。
  • 补丁特征影响:补丁越长(>600 token),解决率下降约50%。

开源生态与行业影响

  1. Multi-SWE-RL社区
    • 同步发布4,723个容器化问题实例,支持强化学习训练,推动AI编程从评估向训练延伸。
  2. 应用场景
    • DevOps优化:优先处理Python/Java简单Issue,预计释放15%-20%工程师人力。
    • IDE集成:实时提供代码修复建议,提升开发效率。
  3. 技术挑战
    • 当前模型依赖Python优化方法,跨语言泛化能力有限,需探索语言无关的抽象推理架构

未来展望

Multi-SWE-bench不仅是评测工具,更是软件工程知识的结构化沉淀。随着开源社区发展,该基准或成为训练通用编程AI的关键基础设施,推动AI从“单语言专家”向“全栈工程师”进化。

开源资源

  • 论文:https://arxiv.org/abs/2504.02605
©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具