首页 > 快讯 > 新时代到来:谷歌推出Veo 3,实现视频与音频的完美同步生成

新时代到来:谷歌推出Veo 3,实现视频与音频的完美同步生成

发布时间:2025-05-22 10:19:04 | 责任编辑:张毅 | 浏览量:4 次

谷歌最近推出了其最新的视频生成模型 Veo3,标志着 AI 视频技术的一次重大飞跃。这款新模型实现了音画同步生成功能,能够根据用户的提示词,自动生成包含对白、唇动对齐和环境音效的高质量视频。这一突破使得 AI 视频制作跨越了多模态的边界,让视频不仅会动,还会说话。
Veo3的核心技术是名为 V2A(Video-to-Audio)的算法,该技术能够将视频的视觉信息转化为语义信号,并与文本提示结合生成音轨。结合谷歌在 YouTube 等平台上积累的丰富数据资源,Veo3在音画合成能力上展现出令人惊叹的表现。目前,该工具虽然仅面向美国的高阶订阅用户开放,但它的推出无疑给视频创作领域带来了新的可能性。
Veo3的强大功能体现在多个方面。首先,它能够自动生成唇动对齐的对话和拟真音效。例如,用户只需输入一句简单的提示,Veo3就能生成一段完整的场景视频,包含人物对话、环境音效,甚至是观众的笑声,这种真实感让人耳目一新。其次,Veo3具备对复杂提示的理解能力,可以生成逻辑连贯、时间有序的视频片段,这在以往的视频生成模型中是非常困难的。最后,该模型在处理物理世界声音方面表现出色,能够模拟脚步声、烹饪声等,使得视频更具生动性和沉浸感。
尽管 Veo3的短视频长度限制为8秒,并且目前仅面向249.99美元的高阶订阅用户,但其强大的音画同步能力已引发广泛关注。未来,随着技术的进一步发展,Veo3无疑将推动视频生成技术迈向新的高度。

新时代到来:谷歌推出Veo 3,实现视频与音频的完美同步生成

谷歌在2025年5月21日的I/O开发者大会上正式发布了第三代视频生成模型Veo 3。这款模型的发布标志着视频生成技术迈入了音画同步的新时代。

核心功能

Veo 3的核心亮点是能够同时生成高质量的视频和与之同步的音效。具体来说:

  • 它可以根据文本和图像提示生成视频,并自动嵌入人物对白、动物叫声、环境音效等。

  • Veo 3能够实现精准的唇形同步和物理效果匹配,例如人物说话时的口型与声音完全一致。

  • 它还能根据场景情绪渲染氛围音效,比如观众的笑声、雨中的雷声等。

技术原理

Veo 3的音画同步能力得益于谷歌DeepMind此前研发的V2A(Video-to-Audio)技术。该技术能够将视频视觉信息编码为语义信号,结合文本提示生成匹配的音频波形。此外,YouTube等海量音视频数据资源也为Veo 3的训练提供了支持。

市场定位与应用

  • 用户订阅:目前Veo 3主要面向美国地区的Gemini Ultra订阅用户,每月收费249.99美元。这一订阅计划主要针对AI重度爱好者和专业创作者。

  • 企业应用:Veo 3还将纳入谷歌面向企业客户的Vertex AI平台,为企业用户提供更高效、专业的视频生成解决方案。

行业影响

Veo 3的发布不仅提升了视频生成的逼真度和沉浸感,还推动了生成式AI从“语言+图像”向“视听一体”阶段的转变。这一技术突破预示着未来视频创作将更加高效和便捷。

总之,谷歌Veo 3的发布为AI视频生成领域带来了重大变革,其音画同步能力为用户带来了全新的创作体验。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复