快手发布文生视频大模型-可灵媲美Sora

发布时间：2024-06-08 10:45:41 | 责任编辑：字母汇 | 浏览量：515 次

国内著名短视频平台快手的AI团队发布了文生视频大模型“可灵”（ Kling）。

可灵通过文本就能生成2分钟、1080P、每秒30帧的超长视频。在色彩、视频质量、动作一致性、文本语义理解等方面可以媲美OpenAI的Sora，同时具备模拟物理世界的技术特性。

值得一提的是，与其他demo模型相比，可灵已经开放测试，直接在其官网下载应用就能马上体验。

体验地址：https://kling.kuaishou.com/

媲美Sora，最长2分钟！快手发布文生视频大模型-可灵

可灵生成的2分钟视频，场景切换非常丝滑

据悉，可灵使用了与Sora一样的Diffusion Transformer架构，3D时空联合注意力机制等，该架构巧妙地融合了时间与空间的信息，对视频数据进行综合分析和处理。

可精准捕捉到视频帧内的局部空间特征以及跨帧的时间动态特征，从而更全面地理解和再现视频中的运动信息。

所以，无论是快速移动的物体、剧烈变化的场景，还是复杂的人物动作都能被精确捕捉，使得生成的视频内容动态性十足，同时具有很高的物理世界真实感。

在生成一些跨度较大的场景时，例如，四季变化、剧烈视角切换等，通过3D时空联合注意力机制在编码器和解码器之间建立多维度的关联，确保了即使在大幅度剧烈运动的情况下，生成的视频内容也能保持流畅和连贯，从上面可灵生成的视频就能看出来这一技术特点。

此外，可灵采用了可变分辨率的训练策略，在模型的训练阶段，引入不同分辨率的数据输入，让模型学习到丰富的特征表示。轻松适配手机、平板、PC等不同设备，以满足电影制作、游戏开发、社交营销、在线教育等不同业务场景的需求。

下面「AIGC开放社区」为大家展示一下由可灵大模型生成的视频。

文本提示：一只戴着太阳镜的柯基在热带岛屿的海滩上漫步

一个戴眼镜的中国男孩在快餐店里闭着眼睛享用美味的芝士汉堡。

一只白猫开车穿过繁忙的市中心街道，背景中有高楼和行人。

一个男人骑着马在戈壁沙漠飞奔，背后美丽的夕阳，电影级别画面。

一个中国男人坐在桌前，用筷子吃面条。

正在弹吉他的大熊猫。

这些由可灵生成的视频案例在动作协调性/一致性、色彩、运动率方面，与同类型相比还是相当出色的，有兴趣的小伙伴可以直接下载使用啦。

原文始发于微信公众号（AIGC开放社区）：媲美Sora，最长2分钟！快手发布文生视频大模型-可灵

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：北航团队推出全球遥感图像生成模型MetaEarth

下一篇：苹果WWDC前瞻：AI唱主角、Siri大进化，我们梳理了所有值得期待的

快手发布文生视频大模型-可灵媲美Sora

最新Ai信息

最新Ai工具

热门AI推荐

快手发布文生视频大模型-可灵 媲美Sora

最新Ai信息

最新Ai工具

热门AI推荐

快手发布文生视频大模型-可灵媲美Sora