新
说明:
官网入口 官方网站主页;
IOS App Store 下载,支持 iPhone/iPad/Mac;
安卓 Google Play / 应用宝下载;
客户端 Mac/Windows/iOS/Android 官方下载;
插件 浏览器插件(默认 Chrome);
GitHub / HuggingFace / ModelScope 模型或项目托管地址;
API 模型/软件接口地址;
MCP 官网的 MCP 栏目入口。
若未显示,表示暂无对应渠道,欢迎补充或纠错。

AIGC官网收录 │
2025-08-31 │
23 次 │
人工核对 │
官网认证 │
定期更新 │
AIGC音频工具
The Sound of Pixels 图文介绍:
The Sound of Pixels(sound-of-pixels.csail.mit.edu)由麻省理工学院计算机科学与人工智能实验室(CSAIL)开发,是一个把“看得到的画面”变成“听得见的声音”的研究级开源项目。它利用自监督神经网络分析视频中的物体运动、材质与动作,自动生成与环境同步的声音或音乐。
主要功能
- 视频到声音自动生成:输入无声视频,输出同步音效、环境声或音乐。
- 多模态自监督学习:模型无需人工标注即可理解视觉-听觉对应关系。
- 材质与动作识别:区分玻璃、金属、木质等不同材质产生的声音差异。
- 交互式 Demo:在线上传 10 秒以内无声视频即可试听 AI 生成的声音。
- 开源代码与预训练模型:提供 PyTorch 实现及预训练权重,便于二次开发。
应用场景
- 影视后期:为无声素材快速补全 Foley 音效。
- AR/VR 内容:根据用户视角实时生成符合物理规律的空间音频。
- 游戏开发:依据角色动作与场景材质即时合成声音,减少手工配音量。
- 无障碍技术:为听障用户把视觉信息转化为可感知的音频提示。
- 学术研究与教学:作为视听学习、多模态 AI 的课程案例。
是否收费
- 完全免费。代码、模型、论文及在线 Demo 均开放获取,无需注册。
平台兼容性
- 本地运行:支持 Linux、macOS、Windows(需 Python 3.7+、PyTorch 1.4+、CUDA 10.1+)。
- 云端:可一键部署到 Google Colab、AWS、Azure。
- 在线 Demo:浏览器直接上传视频即可体验,兼容 Chrome、Firefox、Edge、Safari。
技术亮点
- 使用 SoundNet + PixelPlayer 架构,结合视觉特征与频谱重建。
- 在 MIT Music 与 Audio Research 实验室数据集上训练,覆盖 11 类乐器与 46 种日常物品。
- 支持视频帧率 24–60 fps,输出 16 kHz 单声道或立体声音频。
The Sound of Pixels 是 MIT 开源的先锋级 AIGC 音频工具,将视觉信息转化为高质量声音,极大降低了影视、游戏、AR/VR 等领域的音效制作门槛。免费、开源、跨平台,让研究者和创作者都能轻松体验“像素发声”的未来。
©️版权声明:
本网站(AIGC官网)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
本网站(AIGC官网)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
MixAudio 是一个由Blockmusic AI驱动的多模态AI音频创作平台,支持用户通过文字、图片和音频生成个性化的音乐作品,提供AI Remix、BGM生成和24/7 AI电台等功能。