常用的AIGC模型有哪些?

发布时间:2024-02-22 22:43:47 · 责任编辑:字母汇 · 浏览量:106 次

本文将为大家介绍当前国内外一些典型的AIGC模型,希望对大家的工作和学习能有所帮助!

一、海外AIGC模型
1、Stable Diffusion
Stable Diffusion由来自慕尼黑大学的Robin Rombach(Stability AI公司)和Patrick Esser(Runway 公司)的团队,在 Björn Ommer 教授的领导下主导开发。 Stable Diffusion 作为文本生成图像模型,由于交互简单、生成速度快,极大地降低了使用门槛。因此 Stable Diffusion 成了当前热门的AIGC 绘画生成应用,其理念是“AI by the people, for the people”(可理解为“AI 取之于民,用之于民”)。 Stable Diffusion 不仅公开了算法和训练数据,也公开了训练好的模型参数,与同类型的模型相比 Stable Diffusion 要小很多。

Stable Diffusion 主要由三个部分组成,分别是 VAE、U-Net 网络和 CLIP 文本编码器。在具体的实现过程中,首先使用 CLIP 模型将文本转换为表征形式,然后引导扩散模型 U-Net 在低维表征上进行扩散,之后将扩散之后的低维表征送入VAE 中的解码器,从而实现图像生成。

2022年10月18日,Stability AI公司获得1.01亿美元投资,估值达10亿美元,公司宣布将继续研发拥有生成图片、语言、音频、视频和 3D 的 AIGC 生成模型。

2、DALL-E 2
DALL-E 2 来自 OpenAI,命名来源于著名画家 Dali 和机器人总动员 Wall-E,是在DALL-E的基础上的升级版,其分辨率是之前版本的4倍,发布不到3个月注册用户就超过100万。DALL-E 2有着较好的理解力和创造力,参数达到了 3.5亿个。

DALL-E 2 主要由三个模块组成,分别是 CLIP 模型、先验模型和扩散模型。CLIP模型主要是用来对齐文本和图片特征,其中先验模型主要是将文本表征映射为图片表征,扩散模型则是根据图片表征来生成完整的图像。首先使用 CLIP文本编码器来获得文本编码,之后使用先验模型将文本编码映射为图片编码,最后使用扩散解码器用图片编码生成完整图片。

当然,DALL-E 2也有不足之处,例如容易将物体和属性混淆,无法精准地通过文本在图像中得以实现等。

3、Imagen Video
Imagen Video倾向于打造高质量视频。其工作原理与 DALL-E 2 比较像。首先将文本极性编码表征,之后使用扩散模型将表征映射成为完整图像,同时会通过两个扩散模型来进一步提高分辨率。由于Imagen 使用了T5-XXL模型直接编码文本信息,然后使用条件扩散模型,直接用文本编码生成图像,因此在Imagen 中不需要学习先验模型。同时,Imagen 在语义保真度上做得更好。

4、Make-A-Video
Make-A-Video 是 Meta 公司在 2022 年9月发布的,使用者可以用文本的方式生成简洁和高质量的短视频。Meta使用的系统模型可以从文本-图片配对数据中,学习现实世界的样子并从视频片段中推理没有文本情况下的变化。从实现场景来看,Mate也提供了多种使用方式,比如使用文本描述不同类型的场景动作、使用单张或一对图片生成变化视频、在原始视频中加入额外的元素和变化等。

二、国内AIGC模型
1、太极
腾讯基于自身在自然语言处理和图像多模态等方面积累的经验,打造了通用场景模型——太极文生图大模型。太极文生图采用了 Diffusion 路线:使用在表情场景积累的 Imagen 生成技术(RGB空间Diffusion),生成的图片相关性很好;使用 Stable Diffusion 技术(Latent Diffusion)生成的图片细节相对更为丰富。因此太极文生图是两套模型并行研发的方案,并在原分辨率基础上进一步优化了超分模型,支持1024像素x1024像素的分辨率。下图展示了太极文生图大模型的一些作品。

为保证大模型能够快速高效落地,太极文生图还定制开发了配套的太极-HCF ToolKit,它包含了从模型蒸馏、压缩量化到模型加速的完整能力。在文字生成图像的场景下,使用其中的HCF异构加速组件进行SD、Imagen的模型推理加速,整体性能与业界领先水平相当。后续,太极大模型将持续集成使用HCF ToolKit 相关组件,并在算子定制、图优化、模型压缩等方向持续发力,确保文生图服务的整体性能。

2、文心一言
2022年百度世界大会上,百度公司对外发布了 AIGC 应用,百度公司创始人李彦宏将 AIGC 的发展分为助手、协作和原创三个阶段。至此,AIGC 开始在国内各大互联网公司全面推进。同时,百度公司也发布了自研的 ERNIE-ViLG 文生图模型,包括工业设计、游戏制作、服装设计、Logo 设计、盆栽设计、动漫设计、珠宝设计、传统艺术等诸多领域。用户可以输人自然语言让AI生成符合描述的图像。

还有一个显著的特点在于,ERNIE-ViLG模型能够深刻地理解中文表达,也更了解中国文化,这对国人在使用模型的时候更加便利。据了解,百度公司也主动开放了ERNIE-ViLG模型的API接口,以此降低AIGC的应用门槛,推动相关应用规模化和产业化。

3、太乙 Stable Diffusion
当前国内的AIGC 应用,主要是基于翻译API上英文的 Stable Diffusion 模型进行开发,但是由于中英文之间存在着文化差异,导致我们在输入文本的时候,会遇到对于中文独特的叙事和表达,英文模型很难正确匹配图像内容的情况。

为此,粤港澳大湾区数字经济研究院(以下简称“IDEA研究院”)开源了第一个中文版本的Stable Diffusion模型-太乙 Stable Diffusion,该模型基于0.2亿筛选过的中文图文对进行训练,从而实现了具备中文内核的AIGC模型。下面展示了太乙 Stable Diffusion大模型的作品。

君不见黄河之水天上来 ,唯美,油画

滔滔江水,连绵不绝 ,唯美,插画

飞流直下三千尺 ,唯美,插画

可以看到它能够很好的理解中文古诗词的意思。当前多数AIGC模型还无法和具有中国特色文化背景的语言相结合,太乙模型将有望加快AIGC 全球市场化过程中中国文化产业的数字化转型发展,促进各个相关行业的升级。

4、CogView
智源研究院在 2021年5月推出了中文的文图生成模型CogView,这项工作和OpenAI可以说是在同一时期开展的技术探索。2022年上半年,智源研究院推出了 CogView2.0 和视频生成 CogVideo。在 Stable Diffusion开源之后,智源研究院也基于 Stable Diffusion尝试做了中文版和国画版,生成效果非常不错。

5、MSRA
2021 年 11 月微软亚洲研究院与北京大学联合发布了女娲模型,女娲模型用来从输入的文本、图像或者视频生成图像或者视频。同时,女娲模型还具备图像补全等多种功能。

6、ModelScope
阿里巴巴达摩院联合CCF开源发展委员会共同推出AI模型社区“魔搭’(ModelScope),旨在降低AI的应用门槛。达摩院率先向社区贡献了300多个经过验证的 AI模型,超过三分之一的模型是中文模型。这些模型全面开源、开放,并把模型变为直接可用的服务。

7、DPM-Solver
随着Stability AI的开源模型 Stable Diffusion 被广泛使用,业内专家也在不断对该模型进行优化。扩散模型在使用的过程中需要进行去噪,整个过程需要串行计算50~100步才可以获得较高质量的图片,这导致生成一张图片的时间会较长,限制了模型的部署和落地。为此清华大学的朱军教授带领团队提出了DPM-Solver。

该模型是一种针对扩散模型特殊设计的高效求解器,这种算法不需要额外的训练,同时适用于离散时间和连续时间模型,可以在20-25步内实现收敛,并且只用10~15 步就能获得非常高质量的采样。在 Stable Diffusion上,串行计算25 步的DPM-Solver 就可以获得优于50步PNDM的采样质量,因此采样速度直接翻倍。这一基于 DPM-Solver的创新使扩散模型的采样速度不再是瓶颈。

在人类科技发展史上,每一次巨大变革主要是围绕以下两个方面:一方面是人与世界之间的关系,另一方面是建立人与人之间新的关联。在门户网站时代,我们利用门户网站给用户打开了一扇窗户,大家可以通过门户网站来获得更多的数字信息。假如搜索引擎和门户网站是连接人和世界的管道,那么人们就会通过这个管道来获取世界上的信息和内容。在搜索引擎时代,更多的则是信息从另一端推送给用户。同样是管道的架构,但是不同的管道和不同的技术让信息能够更好地进行结构化处理,并让用户更好地获得所需要的信息。

AIGC时代会诞生一种新结构,首次把人与世界的连接、人与人之间的连接更好地结合在一起,而且
是用一种更加自然的方式。这种方式就是使用自然语言实现人与计算机之间的交互。如果用户想要获得自己喜欢的内容并不断调整,那么推荐引擎将替代搜索引擎成为主流。

以上就是当前国内外一下常见的AIGC模型,想要更加全面地理解AIGC,就需要大家自己在实际的使用过程中自行挖掘了。