智谱推出全新视觉模型 GLM-4.5V,可轻松识别不同炸鸡品牌!
发布时间:2025-08-12 09:47:59 | 责任编辑:吴昊 | 浏览量:7 次
8月11日,智谱科技正式推出其最新的视觉理解模型 ——GLM-4.5V。这款模型是基于其新一代文本模型 GLM-4.5-Air 进行训练的,继承了上一代视觉推理模型 GLM-4.1V-Thinking 的技术路线,拥有惊人的1060亿参数和120亿激活参数。值得一提的是,GLM-4.5V 还新增了 “思考模式” 开关功能,用户可以选择是否启用该模式,从而在处理任务时更灵活。
这一模型的视觉能力令人瞩目,能够轻松分辨出麦当劳和肯德基的炸鸡翅,从外观色泽和质感等多个角度进行深入分析。此外,GLM-4.5V 还能参与图像猜地点的挑战,甚至在比赛中取得了优异的成绩,超越了99% 的人类参赛者,位列第66名。智谱还展示了该模型在42个基准测试中的卓越表现,在绝大多数测试中得分超过同等规模的其他模型。
目前,GLM-4.5V 已经在开源平台如 Hugging Face、魔搭和 GitHub 上线,用户可以免费下载使用,并且还提供了 FP8量化版本。为了更好地体验这一模型,智谱推出了一个桌面助手应用程序,支持实时截屏和录屏,帮助用户完成各种视觉推理任务,包括代码辅助和文档解读。
在实际测试中,GLM-4.5V 展现了出色的能力,能够根据上传的图片进行位置推断,虽然偶尔会出现小误差,但推理过程仍然非常丰富。而在处理网页内容时,它可以通过截图生成相似度高的页面,展现出强大的复现能力。
GLM-4.5V 不仅在视觉理解领域表现突出,还在 Agent 应用场景中展现出巨大潜力。随着这一技术的不断发展,我们有理由期待它在未来的应用中为人们的生活带来更多便捷。
是的!智谱刚刚开源了全新的视觉理解大模型 GLM-4.5V,它不仅能轻松区分麦当劳和肯德基的炸鸡,还能从色泽、外皮质感等角度进行全面分析。
GLM-4.5V 是目前全球100B级参数中效果最好的开源视觉推理模型,总参数高达 1060亿,激活参数为 120亿,支持64K长上下文。除了炸鸡品牌识别,它还具备以下亮点:
-
看图猜地点:在拍图猜地点积分赛中,仅用7天就超越了99%的人类选手。
-
网页复刻:根据网页截图或录屏,自动生成相似度极高的前端代码。
-
GUI智能体能力:能理解并操作图形界面,适用于购物网站折扣计算、App自动化等场景。
目前,GLM-4.5V 已在 Hugging Face、魔搭、GitHub 等平台全面开源,并提供了桌面助手应用和API接口,普通用户可免费体验,开发者还可获得2000万 tokens 的免费额度。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。