智谱AI发布GLM-4.1V-Thinking开源:多模态推理技术再创新高
发布时间:2025-07-02 17:45:52 | 责任编辑:吴昊 | 浏览量:12 次
智谱AI正式开源最新一代通用视觉模型GLM-4.1V-Thinking,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。
GLM-4.1V-9B-Thinking在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld等基准测试。其9亿参数规模结合高效推理能力,使其可在单张3090显卡上运行,且提供免费商用授权,极大降低了开发者门槛。
智谱AI表示,GLM-4.1V-Thinking通过强化学习与课程采样技术,优化了跨领域推理能力,展现出对复杂问题的深度思考与解决能力。模型已上线HuggingFace,供全球开发者免费体验。业界认为,此举将推动多模态AI在教育、科研、商业等领域的广泛应用,标志着智谱AI在通用人工智能道路上的又一里程碑。
智谱AI于2025年7月2日正式开源发布了新一代多模态推理模型GLM-4.1V-Thinking。以下是该模型的详细介绍:
模型概述
GLM-4.1V-Thinking是一款支持图像、视频、文档等多模态输入的通用推理型大模型,专为复杂认知任务设计。它在GLM-4V架构基础上引入了“思维链推理机制(Chain-of-Thought Reasoning)”,并采用“课程采样强化学习策略(RLCS)”,系统性提升了模型的跨模态因果推理能力与稳定性。
技术亮点
-
课程采样强化学习(RLCS):结合基于可验证奖励的强化学习(RLVR)和基于人类反馈的强化学习(RLHF),通过“课程学习”方式,让模型从简单任务逐步过渡到复杂任务,从而提升其在实用性、准确性和稳定性方面的表现。
-
卓越的推理能力:模型在多个复杂推理任务中表现出色,例如STEM领域问题求解、多模态信息定位与理解、智能体任务、文档与图表理解等。
-
创新的训练框架:采用“大规模预训练 → 指令精调对齐 → 强化学习激发”的三段式训练流程,系统性地解决了模型潜力转化为实际能力的难题。
-
多模态能力融合:模型通过混合训练融合了丰富的多模态能力,能够处理图像、视频、文档等多种输入形式,并在长文档理解、图形用户界面(GUI)智能体交互以及多模态代码生成等复杂场景中表现出色。
性能表现
-
参数规模与性能:轻量版GLM-4.1V-9B-Thinking模型参数控制在10B级别,但在性能上却达到了10B级别视觉语言模型的领先水平。在28项权威评测中,该模型有23项达到10B级别模型最佳,其中18项甚至持平或超越参数量高达72B的Qwen-2.5-VL。
-
多领域表现:在通用视觉问答、STEM、OCR & Chart、长文档理解、GUI Agents和多模态编码以及视频理解等领域,GLM-4.1V-9B-Thinking均展现出卓越的性能。
开源与应用
-
开源信息:GLM-4.1V-Thinking的论文、代码等均已开源。开源平台包括GitHub、ModelScope和Hugging Face,开发者可以通过这些平台获取模型资源并进行研究和开发。
-
应用前景:该模型在多个领域具有广泛的应用潜力,例如教育领域的数学与科学推理、金融领域的图表分析、智能办公中的GUI交互等。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。