首页 > 快讯 > 智谱推出全新视觉模型 GLM-4.5V，可轻松识别不同炸鸡品牌！

智谱推出全新视觉模型 GLM-4.5V，可轻松识别不同炸鸡品牌！

发布时间：2025-08-12 09:47:59 | 责任编辑：吴昊 | 浏览量：58 次

8月11日，智谱科技正式推出其最新的视觉理解模型 ——GLM-4.5V。这款模型是基于其新一代文本模型 GLM-4.5-Air 进行训练的，继承了上一代视觉推理模型 GLM-4.1V-Thinking 的技术路线，拥有惊人的1060亿参数和120亿激活参数。值得一提的是，GLM-4.5V 还新增了 “思考模式” 开关功能，用户可以选择是否启用该模式，从而在处理任务时更灵活。
这一模型的视觉能力令人瞩目，能够轻松分辨出麦当劳和肯德基的炸鸡翅，从外观色泽和质感等多个角度进行深入分析。此外，GLM-4.5V 还能参与图像猜地点的挑战，甚至在比赛中取得了优异的成绩，超越了99% 的人类参赛者，位列第66名。智谱还展示了该模型在42个基准测试中的卓越表现，在绝大多数测试中得分超过同等规模的其他模型。
目前，GLM-4.5V 已经在开源平台如 Hugging Face、魔搭和 GitHub 上线，用户可以免费下载使用，并且还提供了 FP8量化版本。为了更好地体验这一模型，智谱推出了一个桌面助手应用程序，支持实时截屏和录屏，帮助用户完成各种视觉推理任务，包括代码辅助和文档解读。
在实际测试中，GLM-4.5V 展现了出色的能力，能够根据上传的图片进行位置推断，虽然偶尔会出现小误差，但推理过程仍然非常丰富。而在处理网页内容时，它可以通过截图生成相似度高的页面，展现出强大的复现能力。
GLM-4.5V 不仅在视觉理解领域表现突出，还在 Agent 应用场景中展现出巨大潜力。随着这一技术的不断发展，我们有理由期待它在未来的应用中为人们的生活带来更多便捷。

是的！智谱刚刚开源了全新的视觉理解大模型 GLM-4.5V，它不仅能轻松区分麦当劳和肯德基的炸鸡，还能从色泽、外皮质感等角度进行全面分析。

GLM-4.5V 是目前全球100B级参数中效果最好的开源视觉推理模型，总参数高达 1060亿，激活参数为 120亿，支持64K长上下文。除了炸鸡品牌识别，它还具备以下亮点：

看图猜地点：在拍图猜地点积分赛中，仅用7天就超越了99%的人类选手。
网页复刻：根据网页截图或录屏，自动生成相似度极高的前端代码。
GUI智能体能力：能理解并操作图形界面，适用于购物网站折扣计算、App自动化等场景。

目前，GLM-4.5V 已在 Hugging Face、魔搭、GitHub 等平台全面开源，并提供了桌面助手应用和API接口，普通用户可免费体验，开发者还可获得2000万 tokens 的免费额度。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。