首页 > 快讯 > 智谱AI隆重推出GLM-4.1V-Thinking开源项目！全新多模态推理巨匠，直面国际顶尖模型挑战

智谱AI隆重推出GLM-4.1V-Thinking开源项目！全新多模态推理巨匠，直面国际顶尖模型挑战

发布时间：2025-07-02 17:41:01 | 责任编辑：张毅 | 浏览量：305 次

中国人工智能领域的领军企业智谱AI（Zhipu AI）再次掀起行业热潮。小编最新获悉，智谱AI于近日正式开源其新一代通用视觉模型GLM-4.1V-Thinking。这款9亿参数的多模态推理模型凭借卓越的性能和广泛的应用场景，不仅在多项权威评测中刷新纪录，还展现了比肩甚至超越72亿参数模型的强大实力。以下是小编整理的最新资讯，带您深入了解这一突破性技术。
引入思维链推理，性能大幅提升
GLM-4.1V-Thinking基于智谱AI此前的GLM-4V架构进行了深度优化，引入了创新的思维链推理机制（Chain-of-Thought Reasoning）。这一机制显著增强了模型在复杂认知任务中的表现，使其能够更高效地处理多模态输入，包括图像、视频和文档等。据小编了解，该模型在28项权威评测(如MMStar、MMMU-Pro、ChartQAPro、OSWorld等)中，23项达到了10亿参数级别模型的最高成绩，其中18项表现持平或超越了参数规模更大的Qwen-2.5-VL72B模型，展现了其惊艳的推理能力。
多模态能力全面覆盖，赋能千行百业
GLM-4.1V-Thinking支持高达64K的上下文长度和4K图像分辨率，同时具备中英文双语能力，能够无缝处理多语言场景下的复杂任务。无论是长视频理解、图像问答、学科解题、文字识别、文档解读，还是图像定位（Grounding）、GUI代理操作以及代码生成，这款模型都能游刃有余。其开源特性进一步降低了使用门槛，单张3090显卡即可运行，免费商用授权更是为企业和开发者提供了广阔的应用空间。小编认为，这一灵活性和高性能的结合将极大推动AI技术在教育、金融、医疗等行业的落地应用。
开源战略，引领全球AI竞争
智谱AI此次选择将GLM-4.1V-Thinking完全开源，并通过Hugging Face平台提供模型权重和演示，彰显了其推动AI技术普及的决心。小编注意到，智谱AI近年来在开源领域动作频频，其GLM系列模型已累计全球下载超3000万次，成为中国AI生态的重要组成部分。此次开源的GLM-4.1V-Thinking不仅为开发者提供了高性能的多模态推理工具，还通过MIT许可证确保了其商业应用的灵活性，进一步巩固了智谱AI在全球AI领域的竞争力。
与全球顶尖模型正面交锋
在性能对比中，GLM-4.1V-Thinking展现了令人瞩目的实力。小编综合评测数据发现，该模型在多项复杂任务中表现出色，尤其是在STEM学科问题和长文档理解等高难度场景中，部分性能甚至超过了OpenAI的GPT-4o模型。这种跨越式的进步表明，智谱AI在多模态推理领域已跻身全球领先行列，与OpenAI、Google等国际巨头展开正面竞争。
中国AI的崛起新篇章
作为中国AI领域的“新四虎”之一，智谱AI通过持续的技术创新和开放的生态战略，正在重塑全球AI格局。小编认为，GLM-4.1V-Thinking的发布不仅是智谱AI技术实力的体现，更是中国AI产业在全球舞台上的一次重要发声。未来，随着更多开发者基于GLM-4.1V-Thinking构建创新应用，中国AI的国际影响力将进一步扩大。
结语
智谱AI的GLM-4.1V-Thinking以其强大的多模态推理能力和开源特性，为全球AI社区带来了新的可能性。小编将持续关注智谱AI的最新动态，为您带来更多前沿科技报道。让我们共同期待这款模型如何在千行百业中掀起变革!

智谱AI于2025年7月2日正式开源发布了新一代通用视觉语言模型GLM-4.1V-Thinking。这款模型专为复杂认知任务设计，支持图像、视频、文档等多模态输入，并在多模态推理领域展现出卓越的性能。

模型特点

架构设计：GLM-4.1V-Thinking基于GLM-4V架构，引入了思维链推理机制（Chain-of-Thought Reasoning）和课程采样强化学习策略（Reinforcement Learning with Curriculum Sampling，RLCS），系统性地提升了跨模态因果推理能力与稳定性。
技术优势：该模型采用AIMv2Huge作为视觉编码器，通过MLP适配器将视觉特征对齐到语言模型的token空间，再由GLM语言解码器处理多模态token并生成输出。此外，它还支持任意分辨率和宽高比的图像输入，增强了时空理解能力。
性能表现：GLM-4.1V-Thinking的轻量版GLM-4.1V-9B-Thinking参数量为10B级别，在28项权威评测中，有23项达成10B级模型的最佳成绩，其中18项持平或超越参数量高达72B的Qwen-2.5-VL。这表明该模型在小体积模型中实现了极限性能潜力。

功能与应用

图像理解：能够精准识别和分析图像内容，支持复杂的视觉任务，如目标检测、图像分类和视觉问答。
视频处理：具备时序分析和事件逻辑建模能力，支持视频理解、视频描述和视频问答。
文档解析：支持处理文档中的图像和文本内容，包括长文档理解、图表理解和文档问答。
数学与科学推理：能够处理STEM领域的推理任务，支持复杂的数学题解和多步演绎。
逻辑推理：支持进行逻辑推理和因果分析，能够处理复杂的推理任务。
跨模态推理：结合视觉和语言信息进行推理，支持图文理解、视觉问答和视觉锚定等任务。

开源与体验

开源地址：GLM-4.1V-Thinking的代码已在GitHub和HuggingFace模型库上开源，技术论文也已发布在arXiv。
体验Demo：用户可以通过HuggingFace的在线体验Demo直接体验该模型，支持上传图片、视频、PPT、PDF等文件。

产业生态

智谱AI在发布GLM-4.1V-Thinking的同时，还宣布获得了浦东创投集团和张江集团总额10亿元的战略投资。此外，智谱推出了全新的Agent应用空间，旨在为企业和开发者提供更便捷、高效的AI应用解决方案。

GLM-4.1V-Thinking的发布标志着智谱AI在多模态推理领域的重大突破，其卓越的性能和开源策略有望推动多模态AI技术的进一步发展。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。