首页 > 快讯 > 智谱AI发布GLM-4.1V-Thinking开源：多模态推理技术再创新高

智谱AI发布GLM-4.1V-Thinking开源：多模态推理技术再创新高

发布时间：2025-07-02 17:45:52 | 责任编辑：吴昊 | 浏览量：165 次

智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking，基于GLM-4V架构，新增思维链推理机制，显著提升复杂认知任务能力。该模型支持图像、视频、文档等多模态输入，擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景，覆盖千行百业的应用需求。
GLM-4.1V-9B-Thinking在28项权威评测中表现卓越，其中23项达成10B级模型最佳成绩，18项持平或超越72B参数的Qwen-2.5-VL，涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。其9亿参数规模结合高效推理能力，使其可在单张3090显卡上运行，且提供免费商用授权，极大降低了开发者门槛。
智谱AI表示，GLM-4.1V-Thinking通过强化学习与课程采样技术，优化了跨领域推理能力，展现出对复杂问题的深度思考与解决能力。模型已上线HuggingFace，供全球开发者免费体验。业界认为，此举将推动多模态AI在教育、科研、商业等领域的广泛应用，标志着智谱AI在通用人工智能道路上的又一里程碑。

智谱AI于2025年7月2日正式开源发布了新一代多模态推理模型GLM-4.1V-Thinking。以下是该模型的详细介绍：

模型概述

GLM-4.1V-Thinking是一款支持图像、视频、文档等多模态输入的通用推理型大模型，专为复杂认知任务设计。它在GLM-4V架构基础上引入了“思维链推理机制（Chain-of-Thought Reasoning）”，并采用“课程采样强化学习策略（RLCS）”，系统性提升了模型的跨模态因果推理能力与稳定性。

技术亮点

课程采样强化学习（RLCS）：结合基于可验证奖励的强化学习（RLVR）和基于人类反馈的强化学习（RLHF），通过“课程学习”方式，让模型从简单任务逐步过渡到复杂任务，从而提升其在实用性、准确性和稳定性方面的表现。
卓越的推理能力：模型在多个复杂推理任务中表现出色，例如STEM领域问题求解、多模态信息定位与理解、智能体任务、文档与图表理解等。
创新的训练框架：采用“大规模预训练 → 指令精调对齐 → 强化学习激发”的三段式训练流程，系统性地解决了模型潜力转化为实际能力的难题。
多模态能力融合：模型通过混合训练融合了丰富的多模态能力，能够处理图像、视频、文档等多种输入形式，并在长文档理解、图形用户界面（GUI）智能体交互以及多模态代码生成等复杂场景中表现出色。

性能表现

参数规模与性能：轻量版GLM-4.1V-9B-Thinking模型参数控制在10B级别，但在性能上却达到了10B级别视觉语言模型的领先水平。在28项权威评测中，该模型有23项达到10B级别模型最佳，其中18项甚至持平或超越参数量高达72B的Qwen-2.5-VL。
多领域表现：在通用视觉问答、STEM、OCR & Chart、长文档理解、GUI Agents和多模态编码以及视频理解等领域，GLM-4.1V-9B-Thinking均展现出卓越的性能。

开源与应用

开源信息：GLM-4.1V-Thinking的论文、代码等均已开源。开源平台包括GitHub、ModelScope和Hugging Face，开发者可以通过这些平台获取模型资源并进行研究和开发。
应用前景：该模型在多个领域具有广泛的应用潜力，例如教育领域的数学与科学推理、金融领域的图表分析、智能办公中的GUI交互等。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。