蚂蚁集团的 “让研发变得更简单” 平台提供了一系列与代码研发相关的资源和工具,主要包括以下方面:
蚂蚁集团联合上海交通大学发布 110 页代码大模型综述,涵盖超 50 个模型、30 个下游任务、800 篇参考文献,全面总结大语言模型在代码应用中的进展与挑战。
- 模型列表
- 自有模型如 CodeFuse - 13B,开源模型包括 Mixtral(MoE)、Deepseek、Qwen、CodeGeeX2、百灵、Llama2、chatglm3、Starcoder、CodeLlama 等。
- CodeFuse - MFTCoder 框架
- 多任务微调框架,提升大语言模型多任务能力,尤其擅长增强代码大模型编程能力。
- 结合多元损失函数均衡多任务数据量、难度和收敛速度差异,提高微调效率和性能。
- 引入高效训练优化技术,兼容多数知名开源大模型,CodeFuse - Deepseek 模型在 BigCode Leaderboard 上的 MFT 表现排名第一。
- CodeFuse - MFT - VLM 框架
- 为多模态大语言模型设计,集成众多视觉编码器(如 CLIP 系列)和语言模型(如 Vicuna 和 LLAMA 系列)。
- 提供灵活配置,用户可通过 VL - MFTCoder 自由组合不同模型,简化多模态任务开发应用。
- CodeFuse - ChatBot:开源 AI 智能助手,简化优化软件开发生命周期各环节。
- DevOps - Eval:为 DevOps 领域大模型设计的综合评估数据集,助开发者追踪进展、分析模型优劣。
- DevOps - Model:开源中文开发运维大模型系列,解答 DevOps 生命周期问题。
- CodeFuse - Query:静态代码分析平台,适用于大规模复杂代码库,以数据为中心,具高扩展性。
- ModelCache:开源大模型语义缓存系统,缓存模型结果,降低响应时间,提升用户体验,助企业机构降成本、提性能。
- TestAgent:国内首个开源测试行业大模型,含 7B 测试领域大模型及配套框架,融合大模型与质量工程技术,促质量技术升级。
- 代码度量评估
- 大规模、高频次、多维度、多语言评估,覆盖千万行代码量,涉及代码注释率、大小、复杂度、标准开发量、重复度、复用度等指标,应用于代码治理、评优等。
- CodeFuseEval:结合 CodeFuse 大模型多任务场景,基于开源评测基准开发的企业级多类型编程任务评估基准,评估大模型在代码补全、翻译、优化、测试用例生成、Bug 检测修复等任务的能力,贴近企业实际应用。
阿里智能编码助手 AI编程