首页 > 快讯 > 长达20秒的高效音视频合成通过Lightricks开源的LTX-2 AI视频模型实现

长达20秒的高效音视频合成通过Lightricks开源的LTX-2 AI视频模型实现

发布时间：2026-01-12 12:33:49 | 责任编辑：吴昊 | 浏览量：102 次

以色列科技公司 Lightricks 近日宣布公开其最新视听合成系统 LTX-2。该系统具备极高的计算效能，能够根据简短的文本描述，直接生成长达20秒且音画完全同步的高清视频内容。
与传统的视觉合成方法不同，LTX-2突破了“先画面、后配音”的顺序处理瓶颈。研发团队指出，传统的音画解耦流程无法还原真实的自然环境分布。为此，LTX-2采用了复杂的双流并行计算架构，通过190亿个计算参数对视觉与声学环境进行协同处理。其中，视频流处理占据140亿个参数，音频流占50亿个，这种非对称分配精确模拟了现实中视觉与听觉信息的密度差异。
在实际性能测试中，该系统展现出惊人的合成速度。在主流企业级显卡环境下，生成一段720p 分辨率的视听内容，每步运算仅需1.22秒。数据显示，其运行效率最高可达同类竞品的18倍。同时，在合成时长方面，20秒的生成上限也超越了谷歌及其他主流实验室的同类工具。
为了精准理解复杂的语言指令，该系统集成了一套多语言文本解析引擎，并引入了“预处理缓冲”机制，使得系统在执行最终合成前有充足的空间解析逻辑。通过独特的交叉关联机制，系统能准确将画面中物体碰撞的瞬间与对应的物理声效匹配。
尽管技术领先，研发团队也坦陈该系统在处理小众方言或多角色对话时，偶尔会出现语音归属偏差。超过20秒的超长序列仍面临时间轴微偏移的挑战。
Lightricks 创始人齐夫·法布曼表示，选择公开系统代码而非将其作为封闭服务，是基于对“技术控制权”的考量。他认为，内容创作者应当在自己的硬件上掌控技术，而不是将决策权外包给少数利益集团。目前，该系统的完整代码及训练框架已在公开平台发布，并针对最新的消费级高性能显卡进行了深度优化。

这是一篇关于Lightricks 开源 AI 视频模型 LTX-2 实现长达20秒的高速音视频一体化合成的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Midjourney动漫工具全新升级！Niji 7登场：眼睛细节更生动，提示词处理能力显著提升+ sref风格转换大革新

下一篇：全球开放权重AI开发领导地位被中国获取，斯坦福研究揭示

长达20秒的高效音视频合成通过Lightricks开源的LTX-2 AI视频模型实现

最新Ai信息

最新Ai工具

热门AI推荐