GLM 4 由 THUDM 推出:32 亿参数的模型直接挑战 GPT-4o 和 DeepSeek-V3
发布时间:2025-04-15 09:37:00 | 责任编辑:字母汇 | 浏览量:27 次
在快速发展的语言模型领域,研究人员和组织面临着诸多挑战。这些挑战包括提升推理能力、提供强大的多语言支持以及有效管理复杂的开放任务。尽管较小的模型通常更容易获得且成本较低,但在性能上往往不及更大的模型。因此,开发中型模型以有效平衡计算效率与强大的推理及指令跟随能力,成为了当前的趋势。
近日,清华大学发布了 GLM4,特别是其 GLM-Z1-32B-0414变体,有效应对了这些挑战。GLM4在一个包含15万亿个标记的大型数据集上进行训练,旨在提供可靠的多语言能力,并引入了一种名为 “思维模式” 的创新推理策略。
这一发布使 GLM4与其他知名模型如 DeepSeek Distill、QwQ 和 O1-mini 并肩,且以广受欢迎的 MIT 许可证进行分发。值得注意的是,尽管其参数规模为32亿,GLM4在推理基准测试中展现出的性能与包含高达6710亿参数的 GPT-4o 和 DeepSeek-V3等更大模型相当。
从技术层面来看,GLM-Z1-32B-0414利用高质量的训练数据,包括合成生成的推理任务,来增强其分析能力。该模型集成了先进的拒绝采样和强化学习(RL)等技术,以提高在基于代理的任务、编码、函数调用和搜索驱动的问答任务中的表现。
此外,其 “深度推理模型” 变体通过结合冷启动方法与延长的 RL 训练,专门针对复杂的数学、逻辑和编码任务进行优化。在训练过程中还采用了成对排名反馈机制,以提高模型的整体推理效果。
一个高级变体 GLM-Z1-Rumination-32B-0414引入了一种新方法,称为 “反思”,使得模型能够进行较长时间的反思推理,以应对像 AI 驱动的城市分析等开放复杂问题。该变体结合了先进的搜索工具与多目标强化学习,显著提升了其在研究密集型任务和复杂检索场景中的实用性。为了满足不同需求,GLM-Z1-9B-0414版本以其90亿参数展现了强大的数学和通用推理能力,证明了较小规模模型的实用性。
基准评估的性能数据强调了 GLM4系列的优势。特别是 GLM-4-32B-0414在多个基准测试中显示出强劲的表现,相较于 GPT-4o、DeepSeek-V3和 Qwen2.5-Max 等模型。在 IFEval 指令跟随基准上,GLM4获得了87.6的高分。在如零售(68.7)和航空(51.2)等任务自动化基准 TAU-Bench 上,GLM4同样取得了不错的成绩。在经过 SimpleQA 评估的搜索增强问答任务中,模型录得了88.1的高分。
此外,GLM4在 BFCL-v3基准的函数调用任务中,整体得分为69.6,几乎与 GPT-4o 的表现持平。在通过 Moatless 框架测试的实际代码修复场景中,GLM4的成功率为33.8%,凸显了其实际价值。
GLM4展现了作为有效语言模型系列的潜力,成功弥合了较小可访问模型与传统更大模型之间的性能差距。GLM-Z1系列,尤其是32B 变体,通过提供强大的推理能力,同时保持计算的经济性, exemplifies this balanced approach。由于其宽松的 MIT 许可证,GLM4被定位为研究和企业应用中高性能 AI 解决方案的重要工具,无需承受传统大型模型所带来的巨大计算开销。
huggingface:https://huggingface.co/THUDM/GLM-Z1-32B-0414
划重点:
- 🌍 GLM4是一款由清华大学发布的32亿参数语言模型,具备强大的多语言能力和推理能力。
- 📊 该模型在多个基准测试中表现出色,尤其在指令跟随和任务自动化领域,展现了与更大模型相当的性能。
- 🚀 GLM4通过其 MIT 许可证,使得高性能 AI 解决方案更易于获取,适合研究和企业应用。
清华大学自然语言处理实验室(THUDM)于2025年4月14日宣布推出新一代开源模型GLM-4-32B-0414系列。该系列模型包含320亿参数,效果比肩OpenAI的GPT-4o和DeepSeek的V3/R1系列。以下是该系列模型与GPT-4o和DeepSeek-V3的对比情况:
模型参数与训练数据
-
GLM-4-32B-0414:320亿参数,经过15万亿高质量数据的预训练。
-
GPT-4o:参数数量未明确,但从其性能表现来看,通常参数规模较大。
-
DeepSeek-V3:6710亿参数。
性能表现
模型 | IFEval | BFCL-v3 (Overall) | BFCL-v3 (MultiTurn) | TAU-Bench (Retail) | TAU-Bench (Airline) | SimpleQA | HotpotQA |
---|---|---|---|---|---|---|---|
Qwen2.5-Max | 85.6 | 50.9 | 30.5 | 58.3 | 22.0 | 79.0 | 52.8 |
GPT-4o-1120 | 81.9 | 69.6 | 41.0 | 62.8 | 46.0 | 82.8 | 63.9 |
DeepSeek-V3-0324 | 83.4 | 66.2 | 35.8 | 60.7 | 32.4 | 82.6 | 54.6 |
DeepSeek-R1 | 84.3 | 57.5 | 12.4 | 33.0 | 37.3 | 83.9 | 63.1 |
GLM-4-32B-0414 | 87.6 | 69.6 | 41.5 | 68.7 | 51.2 | 88.1 | 63.8 |
特点
-
GLM-4-32B-0414:支持非常友好的本地部署特性。在预训练阶段,包含大量推理类的合成数据,为后续的强化学习扩展打下了基础。在后训练阶段,通过拒绝采样和强化学习等技术强化了模型在指令遵循、工程代码、函数调用方面的效果。
-
GPT-4o:作为OpenAI的最新产品,具有强大的语言理解和生成能力。
-
DeepSeek-V3:采用MoE架构,具有370亿激活参数和6710亿总参数,在多项基准测试中表现出色。
应用场景
-
GLM-4-32B-0414:在工程代码、Artifacts生成、函数调用、搜索问答及报告等方面都取得了不错的效果。
-
GPT-4o:适用于需要强大语言理解和生成能力的场景。
-
DeepSeek-V3:适用于需要处理大规模数据和复杂任务的场景。
许可与成本
-
GLM-4-32B-0414:采用MIT许可,降低了计算成本。
-
GPT-4o和DeepSeek-V3:通常需要更高的计算资源和成本。
综上所述,GLM-4-32B-0414在多项基准测试中表现出色,特别是在指令遵循、搜索问答等方面,与GPT-4o和DeepSeek-V3相比具有一定的竞争力。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。