360公开升级自创360Zhinao3-7B模型,70亿参数版各项性能显著增强
发布时间:2025-05-07 08:55:18 | 责任编辑:吴昊 | 浏览量:31 次
360集团宣布开源升级了自研的7B参数模型360Zhinao3-7B,并已上线Github开源社区,可供免费商用。这一模型不仅在数学和科学领域表现出色,更在通用能力上展现了强大的潜力,尤其在端侧应用上具有显著优势。
在本次升级中,360Zhinao3-7B模型仅通过增量训练700B的高质量token,就取得了显著的效果提升,这相比前代模型360Zhinao2-7B的10.1T token成本大幅降低,且不会增加模型的推理成本。
在数据筛选方面,360智脑团队加大了筛选力度,离线训练了多种数据筛选模型,对不同种类的数据进行分档打分,显著提升了数据质量。此外,他们还调整了数据配比,大幅增加了数学、代码、指令等数据的占比,降低了网页和书籍的占比,从而进一步提升了模型的指令遵循和推理能力。
360Zhinao3-7B模型还增加了长文本预训练阶段,将最大窗口长度从4k提升至32k,ROPE的base从1w改为100w。在长文本预训练阶段,团队增加了超长文本和长代码的比例,进一步优化了模型的长文本处理能力。
在模型效果方面,360智脑团队使用开源工具opencompass对模型进行了多维度评估。结果显示,360Zhinao3-7B模型在10B尺寸附近的模型中,具备较强的竞争力。在微调阶段,团队采用了多种策略,包括蒸馏、强化学习等,进一步提升了模型的性能。在长思维链训练中,360Zhinao3-7B模型经过四个阶段的训练,最终在数学和科学数据上展现了与从0训练的7B推理模型相当的竞争力,同时在通用多轮对话、角色扮演及复杂指令遵循上表现更为出色。
360智脑团队表示,360Zhinao3-7B模型的开源,旨在推动AI技术的发展,为开发者提供更强大的工具。该模型不仅适用于数学和科学领域,更在端侧应用上具有广泛的应用前景。
https://github.com/Qihoo360/360zhinao3
360集团于2025年5月7日宣布开源升级了其自研的7B参数模型360Zhinao3-7B。以下是该模型的详细情况:
模型升级与开源
-
开源信息:360Zhinao3-7B模型已上线Github开源社区,可供免费商用。
-
升级基础:该模型是在360Zhinao2-7B的基础上,使用700B高质量词块进行持续预训练的,两个模型结构完全相同,性能提升主要源于训练数据质量的提高。
能力提升
-
通用能力:360Zhinao3-7B在中英文通用能力上表现出色,在多个基准测试中取得了优异成绩。例如,在中文考试CEval、复杂数学推理math、中文阅读理解C3、中文摘要lcsts等评测集上表现突出,在10B以下开源模型中排名第一。
-
数学和逻辑推理能力:该模型在数学逻辑推理方面有显著增强,能够更好地处理复杂的数学问题。
-
长文本处理能力:360Zhinao3-7B在长文本处理方面表现出色。它采用了全新的超长文本无损压缩技术,支持最长360K(约50万字)的长文本输入,这在开源领域中处于领先水平。在LongBench评测中,该模型取得了同等参数模型中的最高分。
-
指令遵循能力:通过采用iterative DPO、off-policy DPO以及PPO三种进化方式对齐,结合高质量人工标注的微调数据,360Zhinao3-7B在实际应用场景中的指令遵循能力得到了大幅增强。
模型特点
-
多种上下文长度支持:该模型支持4K、32K、360K三种不同长度的上下文输入,其中360K长度可支持约50万字的长文本输入。
-
丰富的语料库:360Zhinao3-7B使用了3.4万亿Tokens的语料库进行训练,语料主要以中文、英文和代码为主。
-
开源许可证:遵循Apache 2.0开源许可证,支持商用。
开发者支持
-
完整工具链:开源内容包括基础模型、对话优化模型以及微调训练代码、推理代码等全套工具集,方便开发者“开箱即用”,降低了大模型技术的应用门槛。
360Zhinao3-7B模型的开源升级,不仅提升了模型的各项能力,还为开发者提供了强大的工具和资源,推动了人工智能技术的发展和应用。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。