快手发布文生视频大模型-可灵 媲美Sora

发布时间:2024-06-08 10:45:41 · 责任编辑:字母汇 · 浏览量:80 次

国内著名短视频平台快手的AI团队发布了文生视频大模型“可灵”( Kling)。

可灵通过文本就能生成2分钟、1080P、每秒30帧的超长视频。在色彩、视频质量、动作一致性、文本语义理解等方面可以媲美OpenAI的Sora,同时具备模拟物理世界的技术特性。

值得一提的是,与其他demo模型相比,可灵已经开放测试,直接在其官网下载应用就能马上体验。

体验地址:https://kling.kuaishou.com/

媲美Sora,最长2分钟!快手发布文生视频大模型-可灵

可灵生成的2分钟视频,场景切换非常丝滑

据悉,可灵使用了与Sora一样的Diffusion Transformer架构,3D时空联合注意力机制等,该架构巧妙地融合了时间与空间的信息,对视频数据进行综合分析和处理。

可精准捕捉到视频帧内的局部空间特征以及跨帧的时间动态特征,从而更全面地理解和再现视频中的运动信息。

所以,无论是快速移动的物体、剧烈变化的场景,还是复杂的人物动作都能被精确捕捉,使得生成的视频内容动态性十足,同时具有很高的物理世界真实感。

在生成一些跨度较大的场景时,例如,四季变化、剧烈视角切换等,通过3D时空联合注意力机制在编码器和解码器之间建立多维度的关联,确保了即使在大幅度剧烈运动的情况下,生成的视频内容也能保持流畅和连贯,从上面可灵生成的视频就能看出来这一技术特点。

此外,可灵采用了可变分辨率的训练策略,在模型的训练阶段,引入不同分辨率的数据输入,让模型学习到丰富的特征表示。轻松适配手机、平板、PC等不同设备,以满足电影制作、游戏开发、社交营销、在线教育等不同业务场景的需求。

下面「AIGC开放社区」为大家展示一下由可灵大模型生成的视频。

文本提示:一只戴着太阳镜的柯基在热带岛屿的海滩上漫步

一个戴眼镜的中国男孩在快餐店里闭着眼睛享用美味的芝士汉堡。

一只白猫开车穿过繁忙的市中心街道,背景中有高楼和行人。

一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。

一个中国男人坐在桌前,用筷子吃面条。

正在弹吉他的大熊猫。

这些由可灵生成的视频案例在动作协调性/一致性、色彩、运动率方面,与同类型相比还是相当出色的,有兴趣的小伙伴可以直接下载使用啦。

原文始发于微信公众号(AIGC开放社区):媲美Sora,最长2分钟!快手发布文生视频大模型-可灵