(报告出品方/作者:南京证券,孙其默)
1.0 行业背景:大模型驱动算力需求
本轮AI浪潮由ChatGPT掀起,并引发中外科技企业展开对大语言模型及生成式AI的追逐和对算力的军备竞赛。无论是传统互联网企 业还是新进入者都在加大算力投资,积极推出大模型。 我们认为多模态大模型与应用生态圈将成为2024年生成式AI的关键词,生成式AI依然处于行业发展的初期,多模态大模型训练与推 理需求双驱动加速算力基础设施建设。
多模态大模型,AI感知能力更加丰富
11月6日,OpenAI公布GPT-4 Turbo,平台提供多模态功能,包括视觉、图像创造(DALL.E3)和文本转语音(TTS)。 12月7号,谷歌发布AI多模态模型Gemini 1.0。Gemini 1.0根据不同尺寸进行了优化,分别是Ultra、Pro和Nano。Gemini Ultra适 用于高度复杂的任务,Gemini Pro是通用版,而Gemini Nano则被用于各种客户端设备。Gemini 1.0可以同时理解并识别本文、图 形、音频等。 伴随着大模型处理数据的类型持续扩展,多模态大模型(LMMS)成为主流,这使得未来大模型参数与训练集规模将持续扩大。当前 多模态系统主要处理文本、图片和语音。伴随行业发展,大模型将可以处理视频、音乐、3D等内容。这也意味着大模型训练算力需 求的增长将超预期。
应用生态圈趋于成熟,推理算力需求显著增长
OpenAI发布了GPTs,让用户们无需代码,结合自己的需求、外部知识和能力创造自定义版本的GhatGPT,满足了用户的定制化需求。 此外,OpenAI在11月底上线GPT store,让开发者们能够分享、发布自己创建GPTs。GPTs和GPT Store的上线满足了客户的特色化需 求,有望加速GPT应用生态建设,进一步提高用户黏性。 GPTs降低了制作大模型应用门槛,用户无需编程基础,用自然语言就能做出专属GPTS,从而加速大模型向个人用户和垂直行业渗透。 GPT应用量的增长,也意味着“杀手级”应用出现的可能性提升。大模型应用所带来的推理算力需求将会超出预期。
2.0 算力芯片与服务器发展趋势
NVLink技术、NVSwitch芯片提升芯片互联带宽打破PCIe限制
Nvlink 4代的总带宽可达到900GB/s,为PCIe 5.0总线带宽的7倍,对比下一代PCIe 6.0的256GB/s也有显著优势。 NVSwitch是英伟达的节点交换架构,通过连接多个NVLink,在单节点内和节点间实现多GPU的拓展。第三代NVSwitch能在带点服务器 节点中支持8-16个完全链接的GPU,支持以900GB/s的速度互联每个GPU。 英伟达H100使用第四代 NVLink 和第三代 NVSwitch ,具有八个 NVIDIA H100 Tensor Core GPU 的系统具有 3.6TB/s的二等分带宽 和450GB/s 的缩减操作带宽。与上一代相比,这两个数字分别增加了1.5倍和3倍。英伟达摆脱了PCIe在原始带宽、延迟以及缓存一直 性方面的限制。通过NVLink和NVSwitch实现多个GPU大规模集群的传输,实现更快和更可拓展的计算系统。
英伟达DGX服务器实现内部GPU全互联
以GTC SPRING 2022 发布的DGX H100为例,H100 分为SXM和PCIe两个版本。主流大模型依赖多卡协同,GPU之间的带宽要求较 高,Nvlink全互联的GPU更加适合大模型应用场景。 SXM版本中8张H100芯片通过4张NVLink Switch芯片实现全互联。GPU之间带宽高达900GB/s(双向链路25GB/s*2*18条 =900GB/s),相较于PCIE 5.0x16双向带宽128GB/s,互联速度得到快速提升。 PCIe版本中4张H100芯片通过PCLe Switch PEX4:1连接到CPU,2张H100芯片通过Nvlink Bridge互联。PCIE机型更加灵 活,GPU卡的数量以及PCIE的拓朴可以进行调整。
英伟达DGX服务器计算网络设计优化
DGX H100在服务器内部通信构架中可以看出计算网络的重要性。相较于DGX A100, DGX H100正在放弃传统的PCIe网卡,转而使用“Cedar”的模块进行GPU与GPU之间的 互联。DGX H100通过2个Cedar7模组,每个模组包含4个ConnextX-7 ICs,通过 Densilink电缆连接到服务器的对外接口。虽然8张GPU配备了8张400G的网卡ICs,但 接口合成成了4个800G接口。 优势:1.使用Cedar模块可以提升服务器空间效率,同时有助于服务器内部空气流通。 2.Cedar模块直接通过电缆对外连接,有助于降低PCB设计复杂度与成本。
Chiplet和异构芯片成为行业发展的趋势
Chiplet:AMD早在2011年发布了APU已经是CPU+GPU架构。在2017年,AMD发布的论文《Design and Analysis of an APU for Exascale Computing》中讨论包含CPU、GPU和HBM内存堆栈的APU 芯片设计。在2023年6月推出了AMD首个CPU+GPU的数据中心产品。 UltraFusion:M1 Ultra采用台积电5nm工艺,由两块M1 Max芯片拼接而成,这样的“组合”使得 其晶体管数量达到1140亿颗。使得各项硬件指标翻倍:20 核 CPU 包含16个高性能核心、4个高 能效核心;GPU核心数量增至64核;32核神经网络引擎能够带来每秒22万亿次的运算能力;统一 内存最高规格达到 128GB;内存带宽提升至 800GB/s。这种多芯片(Multi-die)配置主要靠 UltraFusion多晶粒架构,使用2.5D先进封装技术。 异构芯片互联的趋势,逐步摆脱了传统SoC的束缚,芯片面积提升不一定意味着成本大幅提升与 良品率大幅下降。
HBM大幅提升显存带宽,适合大模型应用场景
HBM 通过采用 TSV 技术突破内存带宽与容量瓶颈,是新一代的 DRAM 解决方案。相对于传统内存, HBM 是在硅中阶层(Silicon Interposer)上堆叠起来并与 GPU 封装在一起,大幅缩小使用面积, 并且 HBM 距离 GPU 更近,进一步提升数据传输速度。HBM 主要是通过硅通孔(TSV)技术进行芯片 堆叠,通过贯通所有芯片层的柱状通道传输信号、指令、电流,以增加吞吐量并克服单一封装内带 宽的限制,通过采用 TSV 技术 HBM 大幅提高了容量和数据传输速率。与传统内存技术相比,HBM 具有更高带宽、更大容量、更低功耗、更小尺寸,HBM 突破了内存带宽与容量瓶颈,让更大的模型、 更多的参数留在离核心计算更近的地方,从而减少存储解决方案带来的延迟,是新一代的 DRAM 解 决方案。
算力+数据读取能力+通信能力缺一不可
英伟达2019年以69亿美金收购Mellanox。Mellanox为服务器、存储和超融合基础设施提供 以太网交换机、芯片和InfiniBand智能互联解决方案在内的大量数据中心产品。收购 Mellanox使得英伟达在数通市场业务更加全面,数据中心工作负载将在整个计算,网络和 存储堆栈中进行优化,并能实现更高的性能,更高的利用率和更低的运营成本。 BlueField DPU:DPU承接了传统服务器中CPU的工作负担,并融合了智能网卡的网络加速 功能,这样更好的释放了CPU资源,更好支撑虚拟机和容器的应用。优势:1.降低服务器 功耗,降低用电成本;2.网络通信速度提升。
网络架构演进光模块与交换机需求提升
大模型参数规模提升,算力集群中互联服务器数量显著提升。二层无收敛的胖树网络架构互联的网卡数量是受限的,超算数据中心的 网络架构会向三层无收敛的胖树网络架构演进,这意味着光模块和交换机的需求将进一步提升。 英伟达推出的DGX SuperPOD超级计算机,是一套软硬协同的完整解决方案,在满足AI模型算力的基础上,又能帮助企业快速部署AI数 据中心。DGX SuperPOD 采用模块化的设计,支持不同规模大小的设计。以127个DGX H100为例,整体网络分为计算网络,存储网络, 带内管理网络和带外管理网络。
3.0 光模块
光模块的作用是光电信号的转换。光模块内部结构包括光发射组件(TOSA,含激光器芯片)、光接收组件(ROSA,含探测器芯片)、 驱动电路、光电接口。在发射端,光模块将设备产生的电信号经驱动芯片处理后,通过激光器转化为功率稳定的调制光信号,使得 信息能够在高速光纤中传递;在接收端,光信号经探测器处理后还原为电信号,经前置放大器处理后输出。光芯片是上游产业链核心器件,光器件占比约为73%,电路芯片占比18%。光器件中,光发射组件和光接收组件合计占比约80%。
光模块需求测算:英伟达A100推荐配置
A100+ConnectX6+QM8700 三层网络 。第一层架构中,每个节点(A100)有8个接口,每个节点分别连接8个叶交换机。每20个节点组成一个单元(SU),在第一层需要8*SU个叶交换机需 要8*SU*20条线缆,需要2*8*SU*20个200G光模块。 第二层架构中,由于采用无阻塞架构,第二层也采用单条电缆200G的传输速率,线缆数量和第一层相同,需要2*8*SU*20个200G管模块。所需要的 脊交换机数量是线缆数量除以叶交换机数量,需要(8*SU*20)/(8*SU)个脊交换机。但是当叶交换机数量不够多的时候,为了节约脊交换机的数量可 以在叶和脊之间做两条以上的连接(只要不超过40个接口的限制)。因此当单元数量分别为1/2/4/5个时所需要的脊交换机数量为4/10/20/20个, 所需要的光模块数量分别为320/640/1280/1600个,脊交换机数量不会同比例提升,但光模块数量会同比例提升。 当单元数量达到7个时,需要用到第三层架构,由于无阻塞架构因此第三层架构所需要的线缆数与第二层数相同。 140台服务器,共对应140*8=1120片A100,共需要56+56+28=140个交换机(QM8790),需要1120+1120+1120=3360根线缆,需要3360*2=6720个200G光 模块,A100与200G光模块对应关系为1120/6720=1:6。
光模块需求测算:
在算力集群中,光模块需求数量影响因素:网卡型号、交换机型号、单元数量,不同架构所需要的光模块数量有所差异。 以A100 SuperPOD为例,英伟达官方推荐网卡为ConnectX-6(200b/s),交换机型号为QM8700(40路200Gb/s传输速率),每个单元包括 20个节点,最大支持7个单元组成集群,超过5个单元需要三层交换架构,那么每张A100所需要6个200G光模块。 以H100 SuperPOD为例,英伟达官方推荐网卡为ConnectX-7(400b/s),交换机型号为QM9700(64路400b/s传输速率),每个单元包括 32个节点,最大支持4个单元组成集群,两层交换架构,那么每张H100所需要1个400G和1.5个800G光模块光模块。 根据《中国人工智能大模型地图研究报告》,截至2023年5月,美国已发布100个参数规模10亿以上的大模型,中国发布79个大模型左右。以 在OpenAI为例,他们训练GPT3用了1万张A100显卡,训练GPT4大约3万以上的A100显卡。那我们假设1万张显卡作为入门门槛,2-3万张显卡作 为头部大模型厂商存量显卡,考虑到大模型迭代算力需求。我们假设24年英伟达A100和H100的出货量大致在180万-250万张,对应800G光模块 数量在400万只左右。