“Veo 3” 开源版登场:全新LTX-2面世,可即时创建20秒4K同步音画AI视频,轻松适配本地显卡运行
发布时间:2026-01-07 21:28:19 | 责任编辑:吴昊 | 浏览量:9 次
AI视频生成领域迎来里程碑式突破!Lightricks团队正式开源LTX-2模型,这被誉为首个真正完整的开源音视频基础模型,支持一次性生成最长20秒的4K高清视频,并实现画面、声音、口型、环境音和音乐的完美同步。小编编辑团队梳理最新网络动态,为您带来全面解读。
开源大礼包:权重+代码全放出,社区狂欢开启
LTX-2模型权重、完整训练代码、基准测试和工具包已全部开源,托管于GitHub和Hugging Face。开发者可自由检查、微调和本地部署。该模型基于DiT混合架构,支持文本到视频、图像到视频、多关键帧控制、3D相机逻辑和LoRA微调。最新动态显示,ComfyUI已在发布当日(Day0)原生支持LTX-2,提供现成工作流,极大降低上手门槛。NVIDIA RTX消费级显卡优化后,生成效率大幅提升,普通用户无需企业级硬件即可体验专业级输出。
核心亮点:音视频合一,同步生成无须后处理
不同于传统模型需单独拼接音频,LTX-2在单一流程中联合生成视觉和声音,确保动作、对白、环境音效与音乐自然对齐。支持原生4K分辨率、最高50fps帧率,最长20秒连续片段。实际测试显示,口型同步和表情表现尤为出色,人物对话场景高度逼真。同时,模型在复杂提示下保持较高一致性,皮肤质感和运动流畅度显著优于多数开源竞品。输入模态灵活,可基于文字、图片或草图驱动生成,适用于短片、广告和内容创作。
性能优化:速度更快、资源更省、本地运行友好
相比前代和部分竞品,LTX-2计算成本降低最高50%,多GPU推理栈支持长序列扩展。量化版本进一步降低显存需求,在RTX40系列及以上显卡上流畅运行。社区反馈称,10-20秒视频生成仅需数分钟,甚至实时预览成为可能。这标志着高端AI视频生成从云端封闭走向本地开源民主化,极大降低创作者门槛。
应用潜力无限:从个人创作到专业制作
LTX-2已在内容创作、动画、营销和影视预演等领域展现强大潜力。支持Canny、Depth和Pose等视频到视频控制,结合关键帧驱动,可实现精确叙事和风格一致性。未来,随着社区LoRA和插件扩展,该模型或将成为开源AI视频生态的核心引擎,推动从短视频到长形式内容的创新。
小编观点:LTX-2的开源不仅是技术飞跃,更是AI视频民主化的关键一步。它填补了开源领域音视频联合生成的空白,或将加速本地AI工具的普及。小编将持续关注其社区发展和实际应用,敬请期待后续报道。
这是一篇关于开源版“Veo 3”来了:LTX-2正式发布,一次性生成20秒4K音画同步AI视频,本地显卡轻松跑的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
