首页 > 快讯 > 谷歌 Gemini 3 Flash 更新：集成”Agentic Vision”功能，使AI具备专家级别的图像分析能力

谷歌 Gemini 3 Flash 更新：集成”Agentic Vision”功能，使AI具备专家级别的图像分析能力

发布时间：2026-01-28 17:36:42 | 责任编辑：张毅 | 浏览量：85 次

谷歌近日为其轻量级模型 Gemini3Flash 推出了一项名为“Agentic Vision（代理视觉）”的重磅功能。这一升级改变了以往 AI 视觉模型“看一眼就猜”的局限，让 AI 能够像人类专家一样，通过主动探索和深度推理来分析图像。
过去，AI 在面对信息密集的图片（如远处的路牌、复杂的电路图或微小的文字）时，往往因为只能一次性处理全局信息而导致细节丢失。而 Agentic Vision 引入了一种“思考、执行、观察”的循环机制。简单来说，当用户提出一个复杂视觉问题时，Gemini3会先制定分析计划，随后通过自动生成并执行 Python 代码，对图像进行局部剪裁、旋转或标注，最后再基于这些高清细节给出最终答案。
这种类似“调查员”的工作模式，使 Gemini 在处理高难度视觉任务时的准确性提升了5% 到10%。它不再仅仅是死板地识别像素，而是学会了根据需要“拉近镜头”去寻找证据。
目前，这项能力已率先在 Gemini AI Studio 和 Vertex AI 平台上线，开发者只需开启“代码执行”功能即可调用。谷歌表示，该功能未来也将通过“Thinking 模式”直接面向普通用户开放，让移动端的 AI 助手也能具备这种深度视觉推理能力。
划重点:
👁️ 谷歌推出 Agentic Vision 技术，将视觉推理与 Python 代码执行相结合，告别传统的静态识图模式。
🔍 引入“循环分析”机制，AI 可自主对图像进行剪裁、放大和标注，显著提升复杂细节的识别准确度。
🛠️ 该功能已通过 API 向开发者开放，未来将集成至 Gemini 应用的“思维模式”中供普通用户使用。

这是一篇关于谷歌 Gemini 3 Flash 升级：新增“Agentic Vision”让 AI 像专家一样深度看图的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：英国启动“全民 AI 项目”：为所有成人提供免费网络课程

下一篇：小米与支付宝合作：智慧生活随AI眼镜而来，一瞥停车付费瞬间完成

谷歌 Gemini 3 Flash 更新：集成”Agentic Vision”功能，使AI具备专家级别的图像分析能力

最新Ai信息

最新Ai工具

热门AI推荐