Stability AI推3D空间视频工具,照片直接秒变3D视频
发布时间:2025-03-20 13:47:49 | 责任编辑:字母汇 | 浏览量:92 次
《Stability AI推3D空间视频工具,照片直接秒变3D视频》相关软件官网

Stability AI 发布了一款新的AI模型——Stable Virtual Camera,该公司声称这款模型能够将2D图像转换为具有真实深度和透视效果的3D"沉浸式"视频。虚拟相机是数字电影制作和3D动画中常用的工具,用于实时捕捉和导航场景。
Stability 在博客文章中表示,通过 Stable Virtual Camera,公司致力于将生成式 AI 融入其中,提供更大的控制性和定制化能力。Stable Virtual Camera 可以根据用户指定的相机角度,从一张或多张图像(最多 32 张)生成场景的"新视角"。该模型能够生成沿着"动态"相机路径或预设路径行进的视频,包括"螺旋"、"推拉变焦"、"移动"和"平移"。
Stable Virtual Camera 当前版本为研究预览版,可以生成正方形(1:1)、竖屏(9:16)和横屏(16:9)纵横比的视频,长度最多达 1,000 帧。然而,Stability 警告称,该模型在某些场景下可能会产生较低质量的结果,特别是在处理包含人类、动物或"动态纹理"(如水)的图像时。
Stability 在博客文章中指出:"高度模糊的场景、与物体或表面相交的复杂相机路径以及形状不规则的物体可能会导致闪烁伪影,特别是当目标视角与输入图像有显著差异时。"
Stability 是备受困扰的公司,也是流行的图像生成模型 Stable Diffusion 的开发者。去年,该公司获得了新一轮融资,投资者包括 Eric Schmidt 和 Napster 创始人 Sean Parker,他们希望扭转公司业务。据报道,Stability 的联合创始人兼前 CEO Emad Mostaque 管理不善导致公司陷入财务困境,员工辞职,与 Canva 的合作破裂,投资者对公司前景感到担忧。
在过去几个月中,Stability 聘请了新的 CEO,任命《泰坦尼克号》导演 James Cameron 为董事会成员,并发布了多个新的图像生成模型。今年三月初,该公司与芯片制造商 Arm 合作,将一款能够生成音频(包括音效)的 AI 模型引入搭载 Arm 芯片的移动设备。
今天,我们发布了目前处于研究预览阶段的 Stable Virtual Camera。这一多视角扩散模型可将2D图像转换为具有真实深度和透视效果的沉浸式3D视频——无需复杂的重建或场景特定优化。
虚拟相机是电影制作和3D动画中用于实时捕捉和导航数字场景的数字工具。Stable Virtual Camera 基于这一概念,将传统虚拟相机的熟悉控制与生成式AI的强大功能相结合,提供对3D视频输出的精确、直观控制。
与依赖大量输入图像或复杂预处理的传统3D视频模型不同,Stable Virtual Camera 可从一张或多张输入图像在用户指定的相机角度生成场景的新视图。该模型生成一致且平滑的3D视频输出,在动态相机路径上提供无缝的轨迹视频。
Stable Virtual Camera 提供了生成3D视频的高级功能,包括:
- 动态相机控制:支持用户定义的相机轨迹以及多种动态相机路径,包括:360°、莫比乌斯环(∞形路径)、螺旋、推近变焦、推远变焦、放大、缩小、前进、后退、向上平移、向下平移、向左平移、向右平移和旋转。
- 灵活的输入:可以仅从一张输入图像或最多32张图像生成3D视频。
- 多种宽高比:能够生成正方形(1:1)、竖屏(9:16)、横屏(16:9)和其他自定义宽高比的视频,无需额外训练。
- 长视频生成:确保长达1,000帧的视频中的3D一致性,实现无缝循环和平滑过渡,即使重新访问相同的视角也是如此。
Stable Virtual Camera 在新视角合成(NVS)基准测试中取得了最先进的结果,性能超过了 ViewCrafter 和 CAT3D 等模型。它在强调生成能力的大视角 NVS 和优先考虑时间平滑度的小视角 NVS 方面都表现出色。
这些图表对领先的3D视频模型在各数据集上进行基准测试,测量感知质量(LPIPS)和准确度(PSNR)。每个轴反映不同的数据集和输入设置。
Stable Virtual Camera 作为一个多视角扩散模型,以固定序列长度训练,采用设定数量的输入和目标视图(M输入,N输出)。
Stable Virtual Camera 作为具有固定序列长度的多视角扩散模型进行训练,使用设定数量的输入和目标视图(M输入,N输出)。在采样过程中,它作为灵活的生成渲染器运行,适应可变的输入和输出长度(P输入,Q输出)。这是通过两阶段程序性采样过程实现的——首先生成锚点视图,然后分块渲染目标视图,以确保平滑一致的结果。
在初始版本中,Stable Virtual Camera 在某些场景下可能产生较低质量的结果。包含人类、动物或动态纹理(如水)的输入图像通常会导致输出质量下降。此外,高度模糊的场景、与物体或表面相交的复杂相机路径以及形状不规则的物体可能会导致闪烁伪影,特别是当目标视角与输入图像有显著差异时。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。