首页 > 快讯 > 字节跳动推出全新AI模型Vidi2,120亿参数引领视频编辑自动化变革

字节跳动推出全新AI模型Vidi2,120亿参数引领视频编辑自动化变革

发布时间:2025-12-01 10:39:10 | 责任编辑:吴昊 | 浏览量:1 次

字节跳动刚刚发布了其最新的多模态大语言模型 Vidi2,一个拥有120亿参数、专用于视频理解的AI模型。该模型能够处理数小时长的原始素材,理解其中的故事脉络,并根据简单提示生成完整的TikTok短视频或电影片段,被视为对现有视频编辑行业的重大颠覆。
Vidi2的关键在于其视频理解能力。新模型新增了精细的时空定位(STG)功能,能够同时识别视频中的时间戳和目标对象的边界框。给定文本查询,Vidi2不仅能找到对应的时间段,还能在这些时间范围内准确标记出具体物体的位置。
在技术细节上:
时空定位:模型返回“管道”(时间索引边界框),以一秒粒度跟踪指定对象和人物,直接支持编辑,例如在人群中跟踪特定人物。
技术架构:Vidi2升级使用 Gemma-3 作为主干网络,并辅以重新设计的自适应标记压缩技术,确保在处理长视频时保持效率而不丢失关键细节。
Vidi2在行业基准测试中表现卓越。在用于开放式时间检索的 VUE-TR-V2基准上,其总体 IoU 达到 48.75,尤其在**超长视频(超过1小时)**上的表现比商业模型领先 17.5个百分点。在定位任务(VUE-STG)上,模型也取得了vIoU32.57和tIoU53.19的最佳性能。
基于 Vidi2的强大能力,字节跳动已开发出多个实用的自动化编辑工具,包括:高光提取、故事感知剪切、内容感知重构图和多视角切换,且这些功能都可以在消费级硬件上运行。
TikTok应用:相关技术已应用于 TikTok的Smart Split 功能,能够自动剪辑、重构图、添加字幕,并将长视频转录成适合TikTok的短片段。
AI Outline:该工具能将简单提示或热门话题转化为结构化的视频标题、开头和大纲。
小编 评论指出,Vidi2的发布和字节跳动巨大的 **TikTok(10亿日活用户)**数据平台优势,使其获得了海量视频数据进行训练和实时反馈优化,为原生的AI公司带来了巨大挑战。随着大平台公司的技术飞轮转动起来,传统AI公司可能面临更大的竞争压力。
目前 Vidi2仍处于研究阶段,官方表示 Demo 即将发布。
地址:https://www.alphaxiv.org/abs/2511.19529

字节跳动推出全新AI模型Vidi2,120亿参数引领视频编辑自动化变革

这是一篇关于字节跳动发布“震动级”AI模型 Vidi2:120亿参数,让视频编辑彻底自动化的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐