首页 > 快讯 > 可灵AI全系模型进入2.0时代

可灵AI全系模型进入2.0时代
发布时间:2025-04-15 23:30:07 | 责任编辑:字母汇 | 浏览量:14 次
4月15日,可灵AI宣布基座模型再次升级,面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。可灵2.0模型在动态质量、语义响应、画面美学等维度,保持全球领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。
同时,快手高级副总裁、社区科学线负责人盖坤介绍,自去年6月发布以来,可灵AI已累计完成超20次迭代。截至目前,可灵AI全球用户规模突破2200万,过去的10个月里,其月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片。
可灵AI全系模型进入2.0时代

可灵AI 2.0 是快手于2025年4月15日正式发布的全新一代视频生成模型,标志着可灵AI全系模型进入2.0时代。此次升级在动态质量、语义响应、画面美学等维度实现了全球领先的技术突破,为视频创作领域带来了革命性变革。
核心升级亮点
- 动态质量飞跃
- 通过类Sora的DiT架构,采用Transformer替代传统卷积网络,显著提升视觉与文本模态的融合能力。
- 强化复杂运动主体交互、运镜语言、构图术语等理解,动作流畅性、时序响应能力大幅增强。
- 示例:生成“机械蝴蝶穿梭未来都市”时,精准模拟物理运动规律,画面真实感与艺术表现力兼具。
- 语义响应强化
- 完善表情与肢体动作细节,解决1.6版本中动作描述不准确的问题。
- 增强对复杂场景和抽象文字的解析能力,例如将“晨雾日出”转化为细腻的光影变化与氛围渲染。
- 画面美学提升
- 新增多模态编辑功能,支持精准替换/删除视频元素,结合图片与文字提示词实现精细调优。
- 推出AI音效生成,根据影像内容自动适配音效片段,增强视听沉浸感。
- 示例:复活《清明上河图》时,汴河水波、船只摇曳、行人动态均高度还原历史风貌。
技术架构创新
- DiT架构优化:
- 提升视觉/文本模态信息融合效率,复杂动态场景过渡更自然。
- 首次系统性研究视频生成DiT架构的Scaling Law特性,解锁更强指令响应与运动表现。
- 训练与推理策略升级:
- 强化复杂运动、主体交互生成能力,提升视频张力。
- 采用人类偏好对齐技术,使模型更贴合“常识”与“审美”。
应用场景拓展
- 文生图/图生视频:
- 85%用户依赖图生视频功能,支持3D玩偶、流水线等复杂动态生成。
- 示例:胶布人形象图可一键生成3D玩偶视频,动作与镜头视角灵活调整。
- 历史画作复活:
- 通过图生视频技术,使《清明上河图》《韩熙载夜宴图》等经典画作“焕发生机”。
- 创意场景定制:
- 支持定制3D动画、电影级调色等,降低创作门槛。
用户规模与生态
- 全球用户突破2200万,月活用户量10个月增长25倍。
- 累计生成1.68亿个视频及3.44亿张图片,彰显其在广告制作、社交媒体、在线教育等领域的广泛应用潜力。
行业评价
快手团队称可灵2.0为“全球大幅领先的视频模型”,在动态质量、语义响应、画面美学等维度全面超越1.0版本,进一步巩固了其在AI视频生成领域的标杆地位。
总结:可灵AI 2.0通过架构创新与功能升级,不仅解决了语义遵循与动态质量等核心痛点,更拓展了历史画作复活、创意场景定制等前沿应用,为视频创作带来了前所未有的自由度与可能性。
©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。