前言
AI 和高性能计算(HPC)的需求不断增长,单 GPU 的性能越来越捉襟见肘,因此需要在多 GPU 之间实现无缝连接,以便它们可以作为一个巨大的加速器相互协作。虽然已经存在 PCIe 标准,但带宽有限,因此通常会产生瓶颈。为构建功能强大的端到端计算平台,我们需要速度更快、扩展性更强的互联方式。
NVLink
NVIDIA NVLink 是世界首项高速 GPU 互连技术,与传统的 PCIe 系统解决方案相比,它能为多 GPU 系统提供更快速的替代方案。NVLink 技术通过连接多块 NVIDIA 显卡,能够实现显存和性能扩展,从而满足更大计算工作负载的需求。

其实早在2014年的 GTC 大会上就提出 NVLink 技术,直到2016年,P100 发布,这是搭载 NVLink 的第一款产品,单个 GPU 具有 160 GB/s 的带宽,相当于 PCIe 3代带宽的5倍。在 GTC 2017上发布的 V100 搭载了 NVLink 2.0,更是将 GPU 带宽提升到了 300 G/s,差不多是 PCIe 3代的10倍。再到后来发布的 A100,集成了第三代的 NVLink,其单个 NVIDIA A100 Tensor 核心 GPU 支持多达12个 NVLink 连接,总带宽为 600 G/s,几乎是 PCIe Gen 4 带宽的10倍。目前 NVLink 已经进入第4代,达到了900 G/s。
目前已知的 NVLink 分为两种,第一种是以桥接器的形式实现 NVLink 高速互联技术

另一种是在主板上集成 NVLink 接口,并通过安装 NVLink 接口来实现高速互联

NVSwitch
说到 NVLink,就不得不提一下 NVSwitch
NVSwitch 是一种由 NVIDIA 开发的高性能互连交换机,主要用于构建数据中心和超级计算机中的大规模 GPU 集群。它的设计旨在提供高带宽、低延迟的通信通道,以支持大规模并行计算和深度学习工作负载。
NVSwitch 采用了多级交换架构,每个级别中包含了多个交换芯片。这种多级结构可以扩展系统规模,实现支持数千个 GPU 的互连。NVSwitch 的拓扑结构类似于非阻塞的完全连接网络,每个 GPU 可以直接与其他 GPU 进行通信,而不会出现瓶颈或冲突。
