首页 > 快讯 > 新时代到来：谷歌推出Veo 3，实现视频与音频的完美同步生成

新时代到来：谷歌推出Veo 3，实现视频与音频的完美同步生成

发布时间：2025-05-22 10:19:04 | 责任编辑：张毅 | 浏览量：509 次

谷歌最近推出了其最新的视频生成模型 Veo3，标志着 AI 视频技术的一次重大飞跃。这款新模型实现了音画同步生成功能，能够根据用户的提示词，自动生成包含对白、唇动对齐和环境音效的高质量视频。这一突破使得 AI 视频制作跨越了多模态的边界，让视频不仅会动，还会说话。
Veo3的核心技术是名为 V2A（Video-to-Audio）的算法，该技术能够将视频的视觉信息转化为语义信号，并与文本提示结合生成音轨。结合谷歌在 YouTube 等平台上积累的丰富数据资源，Veo3在音画合成能力上展现出令人惊叹的表现。目前，该工具虽然仅面向美国的高阶订阅用户开放，但它的推出无疑给视频创作领域带来了新的可能性。
Veo3的强大功能体现在多个方面。首先，它能够自动生成唇动对齐的对话和拟真音效。例如，用户只需输入一句简单的提示，Veo3就能生成一段完整的场景视频，包含人物对话、环境音效，甚至是观众的笑声，这种真实感让人耳目一新。其次，Veo3具备对复杂提示的理解能力，可以生成逻辑连贯、时间有序的视频片段，这在以往的视频生成模型中是非常困难的。最后，该模型在处理物理世界声音方面表现出色，能够模拟脚步声、烹饪声等，使得视频更具生动性和沉浸感。
尽管 Veo3的短视频长度限制为8秒，并且目前仅面向249.99美元的高阶订阅用户，但其强大的音画同步能力已引发广泛关注。未来，随着技术的进一步发展，Veo3无疑将推动视频生成技术迈向新的高度。

谷歌在2025年5月21日的I/O开发者大会上正式发布了第三代视频生成模型Veo 3。这款模型的发布标志着视频生成技术迈入了音画同步的新时代。

核心功能

Veo 3的核心亮点是能够同时生成高质量的视频和与之同步的音效。具体来说：

它可以根据文本和图像提示生成视频，并自动嵌入人物对白、动物叫声、环境音效等。
Veo 3能够实现精准的唇形同步和物理效果匹配，例如人物说话时的口型与声音完全一致。
它还能根据场景情绪渲染氛围音效，比如观众的笑声、雨中的雷声等。

技术原理

Veo 3的音画同步能力得益于谷歌DeepMind此前研发的V2A（Video-to-Audio）技术。该技术能够将视频视觉信息编码为语义信号，结合文本提示生成匹配的音频波形。此外，YouTube等海量音视频数据资源也为Veo 3的训练提供了支持。

市场定位与应用

用户订阅：目前Veo 3主要面向美国地区的Gemini Ultra订阅用户，每月收费249.99美元。这一订阅计划主要针对AI重度爱好者和专业创作者。
企业应用：Veo 3还将纳入谷歌面向企业客户的Vertex AI平台，为企业用户提供更高效、专业的视频生成解决方案。

行业影响

Veo 3的发布不仅提升了视频生成的逼真度和沉浸感，还推动了生成式AI从“语言+图像”向“视听一体”阶段的转变。这一技术突破预示着未来视频创作将更加高效和便捷。

总之，谷歌Veo 3的发布为AI视频生成领域带来了重大变革，其音画同步能力为用户带来了全新的创作体验。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。