首页 > 快讯 > 谷歌推出原生多模态嵌入模型Gemini Embedding 2：赋予机器“理解”世界的能力

谷歌推出原生多模态嵌入模型Gemini Embedding 2：赋予机器“理解”世界的能力

发布时间：2026-03-11 12:19:06 | 责任编辑：张毅 | 浏览量：47 次

谷歌正式推出全新 Gemini Embedding2模型。作为谷歌首个原生多模态嵌入模型，它打破了传统模型仅支持单一数据类型的局限，能够将文本、图像、视频、音频和文档同时映射到同一个数学向量空间中，从而实现跨媒体的深度理解。
与专注于内容创作的 Gemini3等生成式模型不同，嵌入模型的核心职能是“理解”。它通过将复杂数据转化为机器可读的向量，帮助系统识别语义关系，在搜索精度和上下文关联上远超传统的关键词检索。
Gemini Embedding2的技术特性与突破:
全能多模态支持:该模型不仅支持文本，还可直接处理 PNG/JPEG 图像、最长120秒的 MP4/MOV 视频、原生音频数据以及最多6页的 PDF 文档。
全球化语言理解:支持在全球100种语言中精准识别用户的语义意图。
多维度联合分析:模型可以在单次请求中同时接收“图像 + 文本”等组合输入，从而深度分析不同媒介类型之间的内在联系。
广泛的应用场景:新模型将显著提升检索增强生成（RAG）、语义搜索、情感分析以及大规模数据聚类的性能。
谷歌在官方博客中举例称，在法律诉讼取证等复杂场景下，Gemini Embedding2能在数百万条跨媒体记录中快速定位关键证据，大幅提升了检索的精度与召回率。目前，该模型已通过 Gemini API 和 Vertex AI 提供公开预览。
对于开发者而言，这一更新意味着可以更轻松地构建处理复杂现实数据的 AI 应用，让机器不仅能“看”和“听”，更能理解不同信息背后的统一逻辑。

这是一篇关于谷歌发布首个原生多模态嵌入模型 Gemini Embedding 2：让机器真正“读懂”世界的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：谷歌推出首个原生多模态嵌入模型 Gemini Embedding 2：使机器能够深度理解世界

下一篇：微信悄悄研发 AI 智能助手，腾讯全新“重磅设备”公开，是否能一站式完成外卖与打车？

谷歌推出原生多模态嵌入模型Gemini Embedding 2：赋予机器“理解”世界的能力

最新Ai信息

最新Ai工具

热门AI推荐