AIGC视频工具
Sora官网
AI功能描述:[外网·OpenAI]AI文本生成视频
Sora 是 OpenAI 开发的一种 AI 模型,主要用于根据文本指令创建逼真且富有想象力的视频场景,以下是其详细介绍:
- 视频生成能力
- 能够生成长达一分钟的视频,同时保持视觉质量,并严格遵循用户给出的提示指令。
- 可以处理复杂场景,包括多个角色、特定类型的动作以及准确的主体和背景细节。例如能生成包含时尚女性在东京街头行走、巨型猛犸象在雪地漫步、太空人冒险、海浪冲击悬崖、3D 动画怪物等各种场景的视频。
- 对语言有深刻理解,能准确解读提示并创造出富有情感表现力的角色,还能在单个生成的视频中创建多个镜头,保持角色和视觉风格的一致性。
- 技术原理
- 采用扩散模型,从类似静态噪声的视频开始,通过多步骤去除噪声逐渐转化为目标视频。
- 具备一次性生成整个视频或扩展已有视频长度的能力,通过让模型一次性预见多个帧解决了对象暂时移出视野时保持一致性的难题。
- 基于 GPT 模型的 transformer 架构,实现卓越的缩放性能。将视频和图像表示为称为 “patches” 的小数据单元集合(类似于 GPT 中的 “token”),从而能够在更广泛的视觉数据上训练扩散变换器,涵盖不同时长、分辨率和纵横比。
- 借鉴了 DALL・E 模型的重新字幕技术,为视觉训练数据生成高度描述性的字幕,使其能更忠实地遵循用户文本指令,还能基于现有静态图像生成视频、扩展现有视频或填充缺失帧。
- 优势
- 能够生成多样化且细节丰富的场景,如历史场景、自然景观、动画场景、现实生活场景等,展示了其在场景构建和角色塑造方面的强大能力。
- 在处理一些复杂场景元素组合和情感表达方面表现出色,如通过对场景元素、角色动作和表情的刻画传递特定氛围和情感。
- 不足
- 在模拟复杂场景的物理效果时可能存在困难,例如在处理物体间的物理交互(如咬饼干后的痕迹)、空间细节(如左右方向辨别)、事件精确描述(如特定相机轨迹)等方面可能出现不准确的情况。
- 动物或人物可能会在包含多个实体的场景中自发出现,导致场景逻辑不够严谨。
- 存在物理建模不准确和不自然的对象 “变形” 问题,例如篮球穿过篮筐后爆炸这种不符合现实物理规律的情况。
- 在模拟多个对象和角色之间的复杂交互时具有挑战性,可能会产生不符合预期或幽默但不太合理的结果。
- 目前,Sora 已向红队成员开放以评估其危害或风险,同时也向一些视觉艺术家、设计师和电影制作人提供访问权限,以获取反馈来改进模型,使其对创意专业人士更有帮助。
- OpenAI 致力于通过与各方合作来改进模型,包括与领域专家(红队成员)合作进行对抗性测试,开发检测误导性内容的工具(如检测分类器),计划在未来部署模型时包含 C2PA 元数据,并利用现有安全方法(如文本分类器和图像分类器)来确保生成内容符合使用政策,同时积极与政策制定者、教育工作者和艺术家互动,以了解他们的关切并确定该技术的积极用例。
OpenAI 认为 Sora 是理解和模拟现实世界的模型基础,有望成为实现通用人工智能(AGI)的重要里程碑,并将继续分享研究进展,与外界合作以不断改进和完善该模型,同时关注其在实际应用中的影响,努力确保其安全、有益地发展。
图像和视频编辑工具