谷歌 Gemini 3 Flash 更新:集成”Agentic Vision”功能,使AI具备专家级别的图像分析能力
发布时间:2026-01-28 17:36:42 | 责任编辑:张毅 | 浏览量:4 次
谷歌近日为其轻量级模型 Gemini3Flash 推出了一项名为“Agentic Vision(代理视觉)”的重磅功能。这一升级改变了以往 AI 视觉模型“看一眼就猜”的局限,让 AI 能够像人类专家一样,通过主动探索和深度推理来分析图像。
过去,AI 在面对信息密集的图片(如远处的路牌、复杂的电路图或微小的文字)时,往往因为只能一次性处理全局信息而导致细节丢失。而 Agentic Vision 引入了一种“思考、执行、观察”的循环机制。简单来说,当用户提出一个复杂视觉问题时,Gemini3会先制定分析计划,随后通过自动生成并执行 Python 代码,对图像进行局部剪裁、旋转或标注,最后再基于这些高清细节给出最终答案。
这种类似“调查员”的工作模式,使 Gemini 在处理高难度视觉任务时的准确性提升了5% 到10%。它不再仅仅是死板地识别像素,而是学会了根据需要“拉近镜头”去寻找证据。
目前,这项能力已率先在 Gemini AI Studio 和 Vertex AI 平台上线,开发者只需开启“代码执行”功能即可调用。谷歌表示,该功能未来也将通过“Thinking 模式”直接面向普通用户开放,让移动端的 AI 助手也能具备这种深度视觉推理能力。
划重点:
👁️ 谷歌推出 Agentic Vision 技术,将视觉推理与 Python 代码执行相结合,告别传统的静态识图模式。
🔍 引入“循环分析”机制,AI 可自主对图像进行剪裁、放大和标注,显著提升复杂细节的识别准确度。
🛠️ 该功能已通过 API 向开发者开放,未来将集成至 Gemini 应用的“思维模式”中供普通用户使用。
这是一篇关于谷歌 Gemini 3 Flash 升级:新增“Agentic Vision”让 AI 像专家一样深度看图的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
