新
国家/地区:美国🇺🇸
AI功能描述:Unified-IO 2 是全球首个能统一理解并生成图像、文本、音频与动作的自回归多模态大模型,在 35+ 基准测试中刷新 SOTA,并向研究社区全面开源。
说明:
官网入口 官方网站主页;
IOS App Store 下载,支持 iPhone/iPad/Mac;
安卓 Google Play / 应用宝下载;
客户端 Mac/Windows/iOS/Android 官方下载;
插件 浏览器插件(默认 Chrome);
GitHub / HuggingFace / ModelScope 模型或项目托管地址;
API 模型/软件接口地址;
MCP 官网的 MCP 栏目入口。
若未显示,表示暂无对应渠道,欢迎补充或纠错。

AIGC官网收录 │
2025-09-18 │
2 次 │
人工核对 │
官网认证 │
定期更新 │
AI大模型
Unified-IO 2 图文介绍:
由艾伦人工智能研究所(AI2)联合伊利诺伊大学厄巴纳-香槟分校、华盛顿大学共同发布,Unified-IO 2 首次将视觉、语言、音频和动作四种模态映射到共享语义空间,使用单一编码器-解码器 Transformer 完成端到端训练与推理,实现真正的“大一统”多模态智能 。
主要功能:
– 图像生成与编辑:根据文本或图像输入生成新图、修改风格、替换物体 ;
– 视觉理解:图像描述、目标检测、语义分割、深度与表面法线估计 ;
– 音频能力:依据图像/文本生成环境音、音乐或语音,也可做音频分类 ;
– 动作输出:在模拟环境中预测机器人 7-DoF 臂部动作,支持视觉-动作指令跟随 ;
– 统一接口:所有任务均以“文本+多模态提示”方式输入,模型自回归地输出对应模态结果。
应用场景:
- 视觉问答、智能剪辑、跨模态检索、机器人控制、沉浸式教育、内容创作、科研实验等 。
是否收费:
- 模型权重、推理代码与训练脚本全部开源,可自由下载;官方仅提供研究许可,商业用途需遵循 AllenAI 条款 。
平台兼容性:
- 代码基于 JAX/T5X 框架,支持 TPU/GPU/CPU;
- 提供 Jupyter Demo 与 Docker 镜像,可在 Google Colab、本地或云端一键部署 。
Unified-IO 2 用 70 亿参数和 120 个数据集的混合去噪目标从头训练,在 GRIT 等 35 项基准上取得 SOTA,是目前开源社区功能最宽、性能最强的多模态大模型之一,为通用人工智能研究提供了重要基座 。
©️版权声明:
本网站(AIGC官网)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
本网站(AIGC官网)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
视觉合成的生成方法、可解释人工智能的可逆深度模型、深度度量和表示学习、自监督学习范式。