百元成本炼成开源视频模型Pusa:基于Mochi微调,低成本复现高质量
发布时间:2025-04-14 10:25:48 | 责任编辑:字母汇 | 浏览量:15 次
人工智能(AI)驱动的视频生成技术正快速发展,近日,一款名为 Pusa 的开源视频模型引起了业界的关注。该模型基于领先的开源视频生成系统 Mochi 进行微调,不仅展现了尚可的效果,更重要的是,完全开源了包括训练工具、数据集在内的整个微调过程,且训练成本仅为约100美元,为视频生成领域的研究和应用带来了新的可能性。
Pusa-V0.5是 Pusa 模型的早期预览版本,其基础模型是 Artificial Analysis Leaderboard 上领先的开源视频生成系统 Mochi1-Preview。通过对 Mochi 进行微调,Pusa 能够支持多种视频生成任务,包括 文本到视频生成、图像到视频转换、帧插值、视频过渡、无缝循环、扩展视频生成等。尽管目前生成的视频分辨率相对较低(480p),但其在运动保真度和提示遵循性方面表现出了潜力。
Pusa 项目最引人注目的特点之一是其完全开源性。开发者不仅可以获取 完整的代码库和详细的架构规范,还能了解到 全面的训练方法。这意味着研究人员和开发者可以深入了解 Pusa 的微调过程,复现实验,并在此基础上进行进一步的创新和改进。这种开放的态度无疑将极大地促进社区的合作与发展。
与动辄花费数万甚至数十万美元训练的大型视频模型相比,Pusa 的训练成本显得格外引人注目。据介绍,Pusa 仅使用了 16块 H800GPU,在约500次迭代后完成训练,总训练时长仅0.1k H800GPU 小时,总成本约为0.1k 美元(即100美元)。如此低的训练成本,为更多研究机构和个人开发者参与到视频模型的研究和开发中提供了机会。项目团队也表示,通过单节点训练和更高级的并行技术,效率还可以进一步提高。
Pusa 采用了帧级噪声控制与向量化时间步的新颖扩散范式,这一方法最初在 FVDM 论文中提出,为视频扩散建模带来了前所未有的灵活性和可扩展性。此外,Pusa 对基础模型进行的调整是非破坏性的,这意味着它保留了原始 Mochi 的文本到视频生成能力,只需进行轻微的微调即可。
Pusa 是一款基于 Mochi 微调的开源视频生成模型,具有低成本、高性能的特点,以下是其详细介绍:
模型特点
- 多任务支持:Pusa 支持多种视频生成任务,包括文本到视频、图像到视频、帧插值、视频过渡、无缝循环、扩展视频生成等。
- 低成本高效率:仅需 0.1k H800 GPU 小时,总成本为 0.1k 美元(即100美元),硬件需求为16个 H800 GPU。
- 完全开源:提供了完整代码库、详细架构规格和全面的训练方法,方便开发者复现和改进。
技术架构
- 帧级噪声控制与矢量化时间步:Pusa 引入了帧级噪声控制和矢量化的时间步,时间步数从传统的 1000 个增加到数千个,极大地提升了模型的灵活性和可扩展性。
- 非破坏性修改:对基础模型的适配保留了其原有的文本到视频生成能力,通过轻微微调即可适应多种视频生成任务。
- 通用适用性:Pusa 的方法不仅适用于 Mochi 模型,还可以轻松应用于其他领先的视频扩散模型。
使用方法
- 安装:
bash git clone https://github.com/genmoai/models cd models pip install uv uv venv .venv source .venv/bin/activate uv pip install setuptools uv pip install -e . --no-build-isolation
如果需要安装 Flash Attention,可以使用:
bash uv pip install -e .[flash] --no-build-isolation
- 下载权重:
- 使用 Hugging Face CLI:
bash pip install huggingface_hub huggingface-cli download RaphaelLiu/Pusa-V0.5 --local-dir
- 或者直接从 Hugging Face 下载到本地。
- 使用 Hugging Face CLI:
- 基本使用:
- 文本到视频生成:
bash python ./demos/cli_test_ti2v_release.py \ --model_dir "/path/to/Pusa-V0.5" \ --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \ --prompt "A man is playing basketball" \ --num_steps 30
- 图像到视频生成:
bash python ./demos/cli_test_ti2v_release.py \ --model_dir "/path/to/Pusa-V0.5" \ --dit_path "/path/to/Pusa-V0.5/pusa_v0_dit.safetensors" \ --prompt "Your_prompt_here" \ --image_dir "/path/to/input/image.jpg" \ --cond_position 1 \ --num_steps 30
- 文本到视频生成:
项目资源
- GitHub 仓库:https://github.com/Yaofang-Liu/Pusa-VidGen
- Hugging Face 模型:https://huggingface.co/RaphaelLiu/Pusa-V0.5
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
下一篇: AI如何影响未来的就业市场?