长达20秒的高效音视频合成通过Lightricks开源的LTX-2 AI视频模型实现
发布时间:2026-01-12 12:33:49 | 责任编辑:吴昊 | 浏览量:3 次
以色列科技公司 Lightricks 近日宣布公开其最新视听合成系统 LTX-2。该系统具备极高的计算效能,能够根据简短的文本描述,直接生成长达20秒且音画完全同步的高清视频内容。
与传统的视觉合成方法不同,LTX-2突破了“先画面、后配音”的顺序处理瓶颈。研发团队指出,传统的音画解耦流程无法还原真实的自然环境分布。为此,LTX-2采用了复杂的双流并行计算架构,通过190亿个计算参数对视觉与声学环境进行协同处理。其中,视频流处理占据140亿个参数,音频流占50亿个,这种非对称分配精确模拟了现实中视觉与听觉信息的密度差异。
在实际性能测试中,该系统展现出惊人的合成速度。在主流企业级显卡环境下,生成一段720p 分辨率的视听内容,每步运算仅需1.22秒。数据显示,其运行效率最高可达同类竞品的18倍。同时,在合成时长方面,20秒的生成上限也超越了谷歌及其他主流实验室的同类工具。
为了精准理解复杂的语言指令,该系统集成了一套多语言文本解析引擎,并引入了“预处理缓冲”机制,使得系统在执行最终合成前有充足的空间解析逻辑。通过独特的交叉关联机制,系统能准确将画面中物体碰撞的瞬间与对应的物理声效匹配。
尽管技术领先,研发团队也坦陈该系统在处理小众方言或多角色对话时,偶尔会出现语音归属偏差。超过20秒的超长序列仍面临时间轴微偏移的挑战。
Lightricks 创始人齐夫·法布曼表示,选择公开系统代码而非将其作为封闭服务,是基于对“技术控制权”的考量。他认为,内容创作者应当在自己的硬件上掌控技术,而不是将决策权外包给少数利益集团。目前,该系统的完整代码及训练框架已在公开平台发布,并针对最新的消费级高性能显卡进行了深度优化。
这是一篇关于Lightricks 开源 AI 视频模型 LTX-2 实现长达20秒的高速音视频一体化合成的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
