首页 > 快讯 > 字节跳动推出全新AI模型Vidi2，120亿参数引领视频编辑自动化变革

字节跳动推出全新AI模型Vidi2，120亿参数引领视频编辑自动化变革

发布时间：2025-12-01 10:39:10 | 责任编辑：吴昊 | 浏览量：285 次

字节跳动刚刚发布了其最新的多模态大语言模型 Vidi2，一个拥有120亿参数、专用于视频理解的AI模型。该模型能够处理数小时长的原始素材，理解其中的故事脉络，并根据简单提示生成完整的TikTok短视频或电影片段，被视为对现有视频编辑行业的重大颠覆。
Vidi2的关键在于其视频理解能力。新模型新增了精细的时空定位（STG）功能，能够同时识别视频中的时间戳和目标对象的边界框。给定文本查询，Vidi2不仅能找到对应的时间段，还能在这些时间范围内准确标记出具体物体的位置。
在技术细节上:
时空定位:模型返回“管道”（时间索引边界框），以一秒粒度跟踪指定对象和人物，直接支持编辑，例如在人群中跟踪特定人物。
技术架构:Vidi2升级使用 Gemma-3 作为主干网络，并辅以重新设计的自适应标记压缩技术，确保在处理长视频时保持效率而不丢失关键细节。
Vidi2在行业基准测试中表现卓越。在用于开放式时间检索的 VUE-TR-V2基准上，其总体 IoU 达到 48.75，尤其在**超长视频（超过1小时）**上的表现比商业模型领先 17.5个百分点。在定位任务（VUE-STG）上，模型也取得了vIoU32.57和tIoU53.19的最佳性能。
基于 Vidi2的强大能力，字节跳动已开发出多个实用的自动化编辑工具，包括:高光提取、故事感知剪切、内容感知重构图和多视角切换，且这些功能都可以在消费级硬件上运行。
TikTok应用:相关技术已应用于 TikTok的Smart Split 功能，能够自动剪辑、重构图、添加字幕，并将长视频转录成适合TikTok的短片段。
AI Outline:该工具能将简单提示或热门话题转化为结构化的视频标题、开头和大纲。
小编评论指出，Vidi2的发布和字节跳动巨大的 **TikTok（10亿日活用户）**数据平台优势，使其获得了海量视频数据进行训练和实时反馈优化，为原生的AI公司带来了巨大挑战。随着大平台公司的技术飞轮转动起来，传统AI公司可能面临更大的竞争压力。
目前 Vidi2仍处于研究阶段，官方表示 Demo 即将发布。
地址:https://www.alphaxiv.org/abs/2511.19529

这是一篇关于字节跳动发布“震动级”AI模型 Vidi2:120亿参数，让视频编辑彻底自动化的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：豆包语音功能升级，支持四类方言，确保老年人交流无阻

下一篇：新研究揭示：AI遭遇“意识”讨论时集体“装糊涂”？

字节跳动推出全新AI模型Vidi2，120亿参数引领视频编辑自动化变革

最新Ai信息

最新Ai工具

热门AI推荐