1.0 行业背景：大模型驱动算力需求

本轮AI浪潮由ChatGPT掀起，并引发中外科技企业展开对大语言模型及生成式AI的追逐和对算力的军备竞赛。无论是传统互联网企业还是新进入者都在加大算力投资，积极推出大模型。我们认为多模态大模型与应用生态圈将成为2024年生成式AI的关键词，生成式AI依然处于行业发展的初期，多模态大模型训练与推理需求双驱动加速算力基础设施建设。

多模态大模型，AI感知能力更加丰富

11月6日，OpenAI公布GPT-4 Turbo，平台提供多模态功能，包括视觉、图像创造（DALL.E3）和文本转语音（TTS）。 12月7号，谷歌发布AI多模态模型Gemini 1.0。Gemini 1.0根据不同尺寸进行了优化，分别是Ultra、Pro和Nano。Gemini Ultra适用于高度复杂的任务，Gemini Pro是通用版，而Gemini Nano则被用于各种客户端设备。Gemini 1.0可以同时理解并识别本文、图形、音频等。伴随着大模型处理数据的类型持续扩展，多模态大模型（LMMS）成为主流，这使得未来大模型参数与训练集规模将持续扩大。当前多模态系统主要处理文本、图片和语音。伴随行业发展，大模型将可以处理视频、音乐、3D等内容。这也意味着大模型训练算力需求的增长将超预期。

应用生态圈趋于成熟，推理算力需求显著增长

OpenAI发布了GPTs，让用户们无需代码，结合自己的需求、外部知识和能力创造自定义版本的GhatGPT，满足了用户的定制化需求。此外，OpenAI在11月底上线GPT store，让开发者们能够分享、发布自己创建GPTs。GPTs和GPT Store的上线满足了客户的特色化需求，有望加速GPT应用生态建设，进一步提高用户黏性。 GPTs降低了制作大模型应用门槛，用户无需编程基础，用自然语言就能做出专属GPTS，从而加速大模型向个人用户和垂直行业渗透。 GPT应用量的增长，也意味着“杀手级”应用出现的可能性提升。大模型应用所带来的推理算力需求将会超出预期。

2.0 算力芯片与服务器发展趋势

NVLink技术、NVSwitch芯片提升芯片互联带宽打破PCIe限制

Nvlink 4代的总带宽可达到900GB/s,为PCIe 5.0总线带宽的7倍，对比下一代PCIe 6.0的256GB/s也有显著优势。 NVSwitch是英伟达的节点交换架构，通过连接多个NVLink，在单节点内和节点间实现多GPU的拓展。第三代NVSwitch能在带点服务器节点中支持8-16个完全链接的GPU，支持以900GB/s的速度互联每个GPU。英伟达H100使用第四代 NVLink 和第三代 NVSwitch ，具有八个 NVIDIA H100 Tensor Core GPU 的系统具有 3.6TB/s的二等分带宽和450GB/s 的缩减操作带宽。与上一代相比，这两个数字分别增加了1.5倍和3倍。英伟达摆脱了PCIe在原始带宽、延迟以及缓存一直性方面的限制。通过NVLink和NVSwitch实现多个GPU大规模集群的传输，实现更快和更可拓展的计算系统。

英伟达DGX服务器实现内部GPU全互联

以GTC SPRING 2022 发布的DGX H100为例，H100 分为SXM和PCIe两个版本。主流大模型依赖多卡协同，GPU之间的带宽要求较高，Nvlink全互联的GPU更加适合大模型应用场景。 SXM版本中8张H100芯片通过4张NVLink Switch芯片实现全互联。GPU之间带宽高达900GB/s（双向链路25GB/s*2*18条 =900GB/s），相较于PCIE 5.0x16双向带宽128GB/s，互联速度得到快速提升。 PCIe版本中4张H100芯片通过PCLe Switch PEX4：1连接到CPU，2张H100芯片通过Nvlink Bridge互联。PCIE机型更加灵活，GPU卡的数量以及PCIE的拓朴可以进行调整。

英伟达DGX服务器计算网络设计优化

DGX H100在服务器内部通信构架中可以看出计算网络的重要性。相较于DGX A100， DGX H100正在放弃传统的PCIe网卡，转而使用“Cedar”的模块进行GPU与GPU之间的互联。DGX H100通过2个Cedar7模组，每个模组包含4个ConnextX-7 ICs，通过 Densilink电缆连接到服务器的对外接口。虽然8张GPU配备了8张400G的网卡ICs，但接口合成成了4个800G接口。优势：1.使用Cedar模块可以提升服务器空间效率，同时有助于服务器内部空气流通。 2.Cedar模块直接通过电缆对外连接，有助于降低PCB设计复杂度与成本。

Chiplet和异构芯片成为行业发展的趋势

Chiplet：AMD早在2011年发布了APU已经是CPU+GPU架构。在2017年，AMD发布的论文《Design and Analysis of an APU for Exascale Computing》中讨论包含CPU、GPU和HBM内存堆栈的APU 芯片设计。在2023年6月推出了AMD首个CPU+GPU的数据中心产品。 UltraFusion：M1 Ultra采用台积电5nm工艺，由两块M1 Max芯片拼接而成，这样的“组合”使得其晶体管数量达到1140亿颗。使得各项硬件指标翻倍：20 核 CPU 包含16个高性能核心、4个高能效核心；GPU核心数量增至64核；32核神经网络引擎能够带来每秒22万亿次的运算能力；统一内存最高规格达到 128GB；内存带宽提升至 800GB/s。这种多芯片（Multi-die）配置主要靠 UltraFusion多晶粒架构，使用2.5D先进封装技术。异构芯片互联的趋势，逐步摆脱了传统SoC的束缚，芯片面积提升不一定意味着成本大幅提升与良品率大幅下降。

HBM大幅提升显存带宽，适合大模型应用场景

HBM 通过采用 TSV 技术突破内存带宽与容量瓶颈，是新一代的 DRAM 解决方案。相对于传统内存， HBM 是在硅中阶层（Silicon Interposer）上堆叠起来并与 GPU 封装在一起，大幅缩小使用面积，并且 HBM 距离 GPU 更近，进一步提升数据传输速度。HBM 主要是通过硅通孔（TSV）技术进行芯片堆叠，通过贯通所有芯片层的柱状通道传输信号、指令、电流，以增加吞吐量并克服单一封装内带宽的限制，通过采用 TSV 技术 HBM 大幅提高了容量和数据传输速率。与传统内存技术相比，HBM 具有更高带宽、更大容量、更低功耗、更小尺寸，HBM 突破了内存带宽与容量瓶颈，让更大的模型、更多的参数留在离核心计算更近的地方，从而减少存储解决方案带来的延迟，是新一代的 DRAM 解决方案。

算力+数据读取能力+通信能力缺一不可

英伟达2019年以69亿美金收购Mellanox。Mellanox为服务器、存储和超融合基础设施提供以太网交换机、芯片和InfiniBand智能互联解决方案在内的大量数据中心产品。收购 Mellanox使得英伟达在数通市场业务更加全面，数据中心工作负载将在整个计算，网络和存储堆栈中进行优化，并能实现更高的性能，更高的利用率和更低的运营成本。 BlueField DPU：DPU承接了传统服务器中CPU的工作负担，并融合了智能网卡的网络加速功能，这样更好的释放了CPU资源，更好支撑虚拟机和容器的应用。优势：1.降低服务器功耗，降低用电成本；2.网络通信速度提升。

网络架构演进光模块与交换机需求提升

大模型参数规模提升，算力集群中互联服务器数量显著提升。二层无收敛的胖树网络架构互联的网卡数量是受限的，超算数据中心的网络架构会向三层无收敛的胖树网络架构演进，这意味着光模块和交换机的需求将进一步提升。英伟达推出的DGX SuperPOD超级计算机，是一套软硬协同的完整解决方案，在满足AI模型算力的基础上，又能帮助企业快速部署AI数据中心。DGX SuperPOD 采用模块化的设计，支持不同规模大小的设计。以127个DGX H100为例，整体网络分为计算网络，存储网络，带内管理网络和带外管理网络。

3.0 光模块

光模块的作用是光电信号的转换。光模块内部结构包括光发射组件（TOSA，含激光器芯片）、光接收组件（ROSA，含探测器芯片）、驱动电路、光电接口。在发射端，光模块将设备产生的电信号经驱动芯片处理后，通过激光器转化为功率稳定的调制光信号，使得信息能够在高速光纤中传递；在接收端，光信号经探测器处理后还原为电信号，经前置放大器处理后输出。光芯片是上游产业链核心器件，光器件占比约为73%，电路芯片占比18%。光器件中，光发射组件和光接收组件合计占比约80%。

光模块需求测算：英伟达A100推荐配置

A100+ConnectX6+QM8700 三层网络。第一层架构中，每个节点（A100）有8个接口，每个节点分别连接8个叶交换机。每20个节点组成一个单元（SU），在第一层需要8*SU个叶交换机需要8*SU*20条线缆，需要2*8*SU*20个200G光模块。第二层架构中，由于采用无阻塞架构，第二层也采用单条电缆200G的传输速率，线缆数量和第一层相同，需要2*8*SU*20个200G管模块。所需要的脊交换机数量是线缆数量除以叶交换机数量，需要(8*SU*20)/(8*SU)个脊交换机。但是当叶交换机数量不够多的时候，为了节约脊交换机的数量可以在叶和脊之间做两条以上的连接（只要不超过40个接口的限制）。因此当单元数量分别为1/2/4/5个时所需要的脊交换机数量为4/10/20/20个，所需要的光模块数量分别为320/640/1280/1600个，脊交换机数量不会同比例提升，但光模块数量会同比例提升。当单元数量达到7个时，需要用到第三层架构，由于无阻塞架构因此第三层架构所需要的线缆数与第二层数相同。 140台服务器，共对应140*8=1120片A100，共需要56+56+28=140个交换机（QM8790），需要1120+1120+1120=3360根线缆，需要3360*2=6720个200G光模块，A100与200G光模块对应关系为1120/6720=1:6。

光模块需求测算：

在算力集群中，光模块需求数量影响因素：网卡型号、交换机型号、单元数量，不同架构所需要的光模块数量有所差异。以A100 SuperPOD为例，英伟达官方推荐网卡为ConnectX-6（200b/s），交换机型号为QM8700（40路200Gb/s传输速率），每个单元包括 20个节点，最大支持7个单元组成集群，超过5个单元需要三层交换架构，那么每张A100所需要6个200G光模块。以H100 SuperPOD为例，英伟达官方推荐网卡为ConnectX-7（400b/s），交换机型号为QM9700（64路400b/s传输速率），每个单元包括 32个节点，最大支持4个单元组成集群，两层交换架构，那么每张H100所需要1个400G和1.5个800G光模块光模块。  根据《中国人工智能大模型地图研究报告》，截至2023年5月，美国已发布100个参数规模10亿以上的大模型，中国发布79个大模型左右。以在OpenAI为例，他们训练GPT3用了1万张A100显卡，训练GPT4大约3万以上的A100显卡。那我们假设1万张显卡作为入门门槛，2-3万张显卡作为头部大模型厂商存量显卡，考虑到大模型迭代算力需求。我们假设24年英伟达A100和H100的出货量大致在180万-250万张，对应800G光模块数量在400万只左右。