首页 > 快讯 > 开放源码的智谱视觉推理GLM-4.5V模型现已发布

开放源码的智谱视觉推理GLM-4.5V模型现已发布

发布时间:2025-08-12 08:48:28 | 责任编辑:吴昊 | 浏览量:14 次

智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探索性成果。该模型在魔搭社区与Hugging Face上同步开源,其总参数达到106B,激活参数为12B,标志着多模态推理技术的新里程碑。
GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air,延续了GLM-4.1V-Thinking的技术路线。在41个公开视觉多模态榜单中,GLM-4.5V的综合效果达到了同级别开源模型的最高性能(SOTA),涵盖了图像、视频、文档理解以及GUI Agent等常见任务。该模型不仅在多模态榜单上表现出色,更在真实场景下的表现与可用性方面得到了重视。
GLM-4.5V通过高效混合训练,具备了覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力。模型新增的“思考模式”开关,允许用户灵活选择快速响应或深度推理,平衡效率与效果。
为了帮助开发者直观体验GLM-4.5V的模型能力,智谱清言同步开源了一款桌面助手应用,该应用可实时截屏、录屏获取屏幕信息,并依托GLM-4.5V处理多种视觉推理任务,如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。
GLM-4.5V的API现已上线智谱开放平台BigModel.cn,为所有新老用户准备了2000万Tokens的免费资源包。该模型在保持高精度的同时,兼顾推理速度与部署成本,为企业与开发者提供高性价比的多模态AI解决方案。API调用价格低至输入2元/M tokens,输出6元/M tokens,响应速度达到60-80tokens/s。
此外,GLM-4.5V在视觉定位、前端复刻、图像识别与推理、复杂文档深度解读以及GUI Agent能力等方面展现了强大的性能。例如,它能够精准识别和定位目标物体,复刻网页,通过图像中的细微线索推理出背景信息,阅读并解读长达数十页的复杂长文本,以及在GUI环境中进行对话问答、图标定位等任务。
GLM-4.5V的技术细节包括视觉编码器、MLP适配器和语言解码器三部分组成,支持64K多模态长上下文,支持图像与视频输入,并通过三维卷积提升视频处理效率。模型采用双三次插值机制,有效增强了对高分辨率及极端宽高比图像的处理能力与稳健性;同时,引入三维旋转位置编码(3D-RoPE),显著强化了对多模态信息的三维空间关系的感知与推理能力。
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

开放源码的智谱视觉推理GLM-4.5V模型现已发布

智谱AI于2025年8月11日正式推出并开源全球100B级效果最佳的开源视觉推理模型 GLM-4.5V(总参数106B,激活参数12B),该模型基于智谱新一代旗舰文本基座模型 GLM-4.5-Air 构建,延续了 GLM-4.1V-Thinking 的技术路线,在41个公开视觉多模态榜单中达到同级别开源模型 SOTA(当前最佳技术)性能,涵盖图像、视频、文档理解及GUI Agent等任务。

GLM-4.5V具备全场景视觉推理能力,包括图像推理(场景理解、复杂多图分析等)、视频理解(长视频分镜分析等)、GUI任务(屏幕读取、图标识别等)、复杂图表与长文档解析(研报分析等)以及精准定位视觉元素的能力,并新增“思考模式”开关,用户可灵活选择快速响应或深度推理。此外,智谱同步开源了一款桌面助手应用,可实时截屏、录屏获取屏幕信息,辅助处理代码、视频内容分析、游戏解答等多种视觉任务。

GLM-4.5V的API响应速度达60-80 tokens/s,调用价格低至输入2元/M tokens、输出6元/M tokens,并已在 魔搭社区Hugging Face 开源(采用MIT开源协议,支持商业使用),用户可通过 z.ai 或智谱清言APP/网页版体验。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐