首页 > 快讯 > 谷歌Gemini2.5图像处理升级：除了物体识别，还能解析抽象概念和联系

谷歌Gemini2.5图像处理升级：除了物体识别，还能解析抽象概念和联系

发布时间：2025-07-23 09:14:11 | 责任编辑：吴昊 | 浏览量：150 次

《谷歌Gemini2.5图像处理升级：除了物体识别，还能解析抽象概念和联系》相关软件官网

谷歌近日为其 Gemini2.5AI 模型推出了一项创新功能——“对话式图像分割”，允许用户通过自然语言提示直接分析和突出显示图像内容。这项技术超越了传统的图像分割范畴，赋予 Gemini 理解并响应更复杂、更具语义的指令的能力。
传统图像分割通常局限于识别如“狗”、“汽车”或“椅子”等固定类别的物体。而现在，Gemini 可以理解并应用于图像特定部分的更复杂语言。它能够处理:关系查询:例如“撑伞的人”。基于逻辑的指令:例如“所有非坐着的人”。抽象概念:甚至能识别“杂物”或“损坏”等没有清晰视觉轮廓的概念。
此外，得益于内置的文本识别功能，Gemini 还能识别需要阅读屏幕文本的图像元素，例如展示柜中的“开心果果仁蜜饯”。该功能支持多语言提示，并可按需提供其他语言（如法语）的物体标签。
谷歌表示，这项技术在多个领域都具有广泛的实际应用价值:图像编辑:设计师无需鼠标或选择工具，只需口头指令，如“选择建筑物的阴影”，即可精准选中所需区域。工作场所安全:Gemini 可以扫描照片或视频，自动识别违规行为，例如“施工现场所有未戴头盔的人”。保险行业:理赔员可以发出“突出显示所有遭受风暴破坏的房屋”等命令，自动在航拍图像中标记受损建筑，大幅节省手动检查时间。
这项强大的功能无需特殊的独立模型。开发者可以通过 Gemini API 直接访问“对话式图像分割”功能，所有请求均由具备此功能的 Gemini 模型直接处理。
返回的结果以 JSON 格式呈现，包含所选图像区域的坐标（box_2d）、像素掩码（mask）和描述性标签（label），为后续开发提供便利。
为获得最佳效果，谷歌建议使用 gemini-2.5-flash 模型，并将 thinkingBudget 参数设置为零以触发即时响应。开发者可以通过 Google AI Studio 或 Python Colab 进行初步测试。

谷歌 Gemini 2.5 系列（包括 Gemini 2.5 Pro 和 Gemini 2.5 Flash 等）在图像处理方面实现了重大革新，不仅限于简单识别物体，而是能深入理解图像中的抽象概念、情感和潜在意图，甚至能分析复杂图表、科学数据可视化和示意图，提取核心信息，并建立视觉输入与文本推理的跨模态逻辑关联。其多模态处理能力支持同时理解文字、图像、音频、视频和代码等多种数据类型，并建立跨模态之间的逻辑与语义关联，特别适合处理医学影像辅助分析、复杂图表解读等场景。此外，Gemini 2.5 的上下文窗口高达 100 万 token（未来将扩展至 200 万），使其在处理复杂多模态任务时更加游刃有余。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Qwen3-Coder：通义千问发布全新开源AI编程模型

下一篇： iOS 26 Beta 4全新登场：苹果新增智能新闻摘要AI功能

谷歌Gemini2.5图像处理升级：除了物体识别，还能解析抽象概念和联系

最新Ai信息

最新Ai工具

热门AI推荐