首页 > 快讯 > StoryMem由字节跳动推出:为AI视频增设”持久记忆”,有效克服角色变形挑战

StoryMem由字节跳动推出:为AI视频增设”持久记忆”,有效克服角色变形挑战

发布时间:2026-01-04 11:44:14 | 责任编辑:吴昊 | 浏览量:66 次

针对 AI 视频生成领域长期存在的“角色走样”与“环境闪烁”难题,字节跳动与南洋理工大学研究团队近期联合推出名为 StoryMem 的创新系统。该系统通过引入一种类似人类记忆的机制,成功实现了长视频跨场景创作的高度一致性,解决了 Sora、Kling 等模型在多镜头叙事时容易出现的视觉偏差痛点。
StoryMem 的核心逻辑在于其独特的“混合记忆库”设计。研究人员指出,将所有场景强行塞入单个模型会导致计算成本激增,而分段生成又会丢失关联。为此,StoryMem 选择性地存储先前场景的关键帧作为参考。该算法利用双重过滤器,先通过语义分析挑选视觉核心帧,再通过质量检测剔除模糊图像。在生成新场景时,这些关键帧会配合一种名为 RoPE(旋转位置嵌入)的技术输入模型。通过赋予记忆帧“负时间索引”,系统能引导 AI 将其识别为“过去的事件”,从而确保角色形象和背景细节在故事推进中保持稳定。
值得关注的是,StoryMem 的实现方式极为高效。它基于阿里巴巴开源模型 Wan2.2-I2V 的 LoRa 版本运行,在拥有140亿参数的基础模型上仅增加了约7亿参数,显著降低了训练门槛。在包含300条场景说明的 ST-Bench 基准测试中,StoryMem 的跨场景一致性较基础模型提升了28.7%,在美学得分与用户偏好上也全面超越了 HoloCine 等现有前沿技术。
此外,该系统还展现了极高的实用价值,支持用户上传自定义照片作为“记忆起点”来生成连贯故事,并能实现更平滑的场景过渡。尽管在处理多角色并发及大幅度动作衔接上仍有局限,但团队已在 Hugging Face 开放了权重数据,并上线了项目页面供开发者探索。
地址:https://kevin-thu.github.io/StoryMem/
https://huggingface.co/Kevin-thu/StoryMem

StoryMem由字节跳动推出:为AI视频增设”持久记忆”,有效克服角色变形挑战

这是一篇关于字节跳动发布 StoryMem:给 AI 视频装上“长期记忆”,彻底解决角色走样难题的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐