谷歌Gemini2.5图像处理升级:除了物体识别,还能解析抽象概念和联系
发布时间:2025-07-23 09:14:11 | 责任编辑:吴昊 | 浏览量:11 次
谷歌近日为其 Gemini2.5AI 模型推出了一项创新功能——“对话式图像分割”,允许用户通过自然语言提示直接分析和突出显示图像内容。这项技术超越了传统的图像分割范畴,赋予 Gemini 理解并响应更复杂、更具语义的指令的能力。
传统图像分割通常局限于识别如“狗”、“汽车”或“椅子”等固定类别的物体。而现在,Gemini 可以理解并应用于图像特定部分的更复杂语言。它能够处理:关系查询:例如“撑伞的人”。基于逻辑的指令:例如“所有非坐着的人”。抽象概念:甚至能识别“杂物”或“损坏”等没有清晰视觉轮廓的概念。
此外,得益于内置的文本识别功能,Gemini 还能识别需要阅读屏幕文本的图像元素,例如展示柜中的“开心果果仁蜜饯”。该功能支持多语言提示,并可按需提供其他语言(如法语)的物体标签。
谷歌表示,这项技术在多个领域都具有广泛的实际应用价值:图像编辑:设计师无需鼠标或选择工具,只需口头指令,如“选择建筑物的阴影”,即可精准选中所需区域。工作场所安全:Gemini 可以扫描照片或视频,自动识别违规行为,例如“施工现场所有未戴头盔的人”。保险行业:理赔员可以发出“突出显示所有遭受风暴破坏的房屋”等命令,自动在航拍图像中标记受损建筑,大幅节省手动检查时间。
这项强大的功能无需特殊的独立模型。开发者可以通过 Gemini API 直接访问“对话式图像分割”功能,所有请求均由具备此功能的 Gemini 模型直接处理。
返回的结果以 JSON 格式呈现,包含所选图像区域的坐标(box_2d)、像素掩码(mask)和描述性标签(label),为后续开发提供便利。
为获得最佳效果,谷歌建议使用 gemini-2.5-flash 模型,并将 thinkingBudget 参数设置为零以触发即时响应。开发者可以通过 Google AI Studio 或 Python Colab 进行初步测试。
谷歌 Gemini 2.5 系列(包括 Gemini 2.5 Pro 和 Gemini 2.5 Flash 等)在图像处理方面实现了重大革新,不仅限于简单识别物体,而是能深入理解图像中的抽象概念、情感和潜在意图,甚至能分析复杂图表、科学数据可视化和示意图,提取核心信息,并建立视觉输入与文本推理的跨模态逻辑关联。其多模态处理能力支持同时理解文字、图像、音频、视频和代码等多种数据类型,并建立跨模态之间的逻辑与语义关联,特别适合处理医学影像辅助分析、复杂图表解读等场景。此外,Gemini 2.5 的上下文窗口高达 100 万 token(未来将扩展至 200 万),使其在处理复杂多模态任务时更加游刃有余。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。