谷歌计划将 Gemini 与 Veo AI 模型结合,推动智能助手发展
发布时间:2025-04-11 10:06:12 | 责任编辑:字母汇 | 浏览量:19 次
在近日的一档播客节目中,谷歌 DeepMind 的首席执行官米斯・哈萨比斯(Demis Hassabis)表示,谷歌计划最终将其 Gemini 人工智能模型与视频生成模型 Veo 结合,以提升 Gemini 对物理世界的理解。他指出,Gemini 从一开始就是为了多模态设计的,目的是实现一个 “通用数字助手”,这种助手能够在现实世界中真正帮助用户。
哈萨比斯提到,AI 行业正逐渐朝着 “全能” 模型的方向发展,这些模型能够理解和合成多种媒体形式。例如,谷歌最新的 Gemini 模型不仅可以生成文本和图像,还能生成音频。而 OpenAI 在 ChatGPT 中的默认模型也已经能够原生创建图像。此外,亚马逊也宣布将在今年推出一款 “任何到任何” 的模型。
实现这些全能模型需要大量的训练数据,包括图像、视频、音频和文本等。哈萨比斯暗示,Veo 模型的训练数据主要来自谷歌拥有的 YouTube 平台。他表示,通过观看大量 YouTube 视频,Veo2能够学习到世界的物理规律。
谷歌此前曾表示,其模型 “可能” 会根据与 YouTube 创作者的协议,从 “部分” YouTube 内容中进行训练。报告显示,谷歌去年扩展了其服务条款,以便能够获取更多数据来训练其人工智能模型。这一策略表明,谷歌正在积极寻求提高其 AI 技术的能力,以满足市场需求。
随着人工智能技术的快速发展,谷歌的这一计划也反映了业界对多模态 AI 的重视和未来可能的发展方向。结合 Gemini 和 Veo 的模型,将有助于为用户提供更丰富的互动体验,使人工智能能够更好地融入日常生活中。
划重点:
- 🤖 谷歌计划将 Gemini 与 Veo AI 模型结合,以提升对物理世界的理解。
- 🎥 Veo 模型的训练数据主要来自 YouTube,利用大量视频学习物理规律。
- 🌐 AI 行业正在向多模态 “全能” 模型发展,以满足日益增长的市场需求。
谷歌计划将 Gemini 人工智能模型与 Veo 视频生成模型结合,以推动智能助手的发展。以下是相关细节:
结合目的
- 提升对物理世界的理解:Gemini 从一开始就被设计为多模态模型,旨在实现一个“通用数字助手”,能够真正帮助用户在现实世界中解决问题。
- 满足市场需求:AI 行业正逐渐朝着“全能”模型的方向发展,这些模型能够理解和合成多种媒体形式。
Veo 模型特点
- 数据来源:Veo 模型的训练数据主要来自谷歌旗下的 YouTube 平台,通过观看大量 YouTube 视频,Veo 能够学习到世界的物理规律。
- 功能强大:Veo 2 能够根据简单的文字描述或图像生成视频,支持多种视觉风格,还能模拟现实世界的物理现象。
Gemini 模型进展
- 多模态能力:最新的 Gemini 模型不仅可以生成文本和图像,还能生成音频。
- 新版本推出:谷歌在 Cloud Next 2025 会议上宣布了 Gemini 2.5 Flash 即将推出,该版本将保持低延迟和成本效益,同时引入思考能力。
应用场景
- 更丰富的互动体验:结合 Gemini 和 Veo 的模型后,智能助手将能够为用户提供更丰富的互动体验,例如生成个性化的视频内容。
- 实时交互:谷歌还推出了 Live API,使开发者能够构建和测试更强大、可扩展的应用程序,支持实时处理音频、视频和文本。
行业影响
这一计划不仅展示了谷歌在 AI 领域的技术实力,也反映了整个行业对多模态 AI 的重视和未来可能的发展方向。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。