【AI】什么是InfiniBand | 发展历程 | 工作原理 | AI的计算网络底座 | 训练GPT的网络 | Mellanox | Nvidia | RDMA | RoCE
3.3K Views|1 Summarized|1 year ago
💫 Summary
视频介绍了InfiniBand的发展历程、技术原理及其在AI算力网络中的关键角色,分析了与以太网的竞争关系,并探讨了NVIDIA收购Mellanox后对高性能计算的推动。
✦
InfiniBand是一种强大的通信技术协议,适用于AI算力架构。
00:00InfiniBand的全称是“无限带宽”,是一种高效的通信技术。
随着大语言模型的发展,GPU需求激增,底层算力优化变得必要。
InfiniBand与以太网的竞争是当前AI公司关注的焦点。
InfiniBand的诞生与计算机架构的发展密切相关,最早由英特尔引入PCI总线设计。
✦
InfiniBand在2002年经历转折,逐渐转向计算机集群和存储设备连接。
02:582002年,英特尔和微软退出InfiniBand开发,影响了其发展。
2003年,InfiniBand用于计算机集群互联,弗吉尼亚理工学院的集群排名全球第三。
2004年,开放Fabrics联盟成立,负责开发和维护InfiniBand协议和应用API。
到2009年,使用InfiniBand技术的超级计算机数量显著增加,市场占比提升。
✦
InfiniBand与以太网技术的发展和竞争关系。
05:532010年,IBTA发布RoCE技术,将RDMA技术移植到以太网中。
2014年推出RoCE v2,缩小了以太网与InfiniBand之间的性能差距。
2015年起,25G及更高速率的以太网迅速崛起,压制了InfiniBand。
2019年,英伟达收购Mellanox,增强了高性能计算能力。
✦
RDMA的内存零拷贝机制和InfiniBand的网络结构提升了效率。
08:51RDMA允许接收端直接从发送端内存读取数据,减少CPU负担。
InfiniBand的网络拓扑结构基于通道,主要由HCA、TCA、连接通道和交换机构成。
InfiniBand系统可由多个子网组成,每个子网最多可有6万多个节点。
InfiniBand交换机负责二层处理,通过LID进行数据包转发。
✦
InfiniBand的基本概念和发展历程。
11:46QP(队列偶)是RDMA技术中通信的基本单元,包括发送和接收工作队列。
InfiniBand支持多种链路速度,1X链路带宽为2.5Gbps,4X为10Gbps,12X为30Gbps。
InfiniBand的网络带宽经历了多次升级,从SDR到NDR、XDR、GDR等。
英伟达收购Mellanox后推出了第七代NVIDIA InfiniBand架构——NVIDIA Quantum-2,包含多种外形规格和冷却版本。
00:00大家好,这里是最佳拍档,我是大飞
00:03对于搞AI的同学来说
00:05了解底层的算力架构是很重要的
00:08尤其是今年大语言模型的崛起
00:11让GPU无比紧俏
00:13那么底层的算力优化也就变得越来越必要了
00:16今天我们就来聊聊GPT背后所使用的算力网络
00:21也是让英伟达站上万亿市值的基础
00:24InfiniBand
00:25它到底是一项怎样的技术?
00:27为什么会倍受现在这些AI公司的追捧?
00:30而人们经常讨论的“InfiniBand与以太网”之争
00:34又是怎么回事呢?
00:35InfiniBand,简称IB
00:37是一种能力很强的通信技术协议
00:40它的英文直译过来,就是“无限带宽”。
00:43Infiniband的诞生故事
00:44还要从计算机的架构讲起
00:47大家都知道
00:48现代意义上的数字计算机
00:50从诞生之日起
00:52一直都是采用的冯·诺依曼架构
00:55在这个架构中,有CPU
00:57包括运算器、控制器,有存储器
01:00包括内存、硬盘
01:02还有I/O也就是输入/输出设备
01:05上世纪90年代早期
01:06为了支持越来越多的外部设备
01:08英特尔公司率先在标准PC架构中引入PCI总线的设计
01:13而PCI总线,其实就是一条通道
01:16不久后,互联网进入高速发展阶段
01:19线上业务和用户规模的不断增加
01:21给IT系统的承载能力带来了很大挑战
01:25当时,在摩尔定律的加持下
01:27CPU、内存、硬盘等部件都在快速升级
01:31而PCI总线,升级速度缓慢
01:34大大限制了I/O性能
01:36成为整个系统的瓶颈
01:39为了解决这个问题
01:40英特尔、微软和SUN公司
01:42主导开发了“Next Generation I/O
01:45简称NGIO”的技术标准
01:48而IBM、康柏以及惠普公司
01:51则主导开发了“Future I/O
01:53简称FIO”。
01:55IBM这三家公司
01:56还在1998年合力搞出了PCI-X标准
02:001999年
02:01FIO Developers Forum和NGIO Forum进行了合并
02:05创立了InfiniBand贸易协会,IBTA
02:09很快,2000年
02:11InfiniBand架构规范的1.0版本正式发布了
02:14简单来说,InfiniBand的诞生目的
02:17就是为了取代PCI总线
02:19它引入了RDMA协议,具有更低的延迟
02:22更大的带宽,更高的可靠性
02:25可以实现更强大的I/O性能
02:27说到InfiniBand
02:28有一家公司我们是必须提到的
02:30那就是大名鼎鼎的Mellanox
02:33中文名为迈络思
02:351999年5月
02:37几名从英特尔公司和伽利略技术公司离职的员工
02:40在以色列创立了一家芯片公司
02:43将其命名为Mellanox
02:45Mellanox公司成立后,就加入了NGIO
02:49后来,NGIO和FIO合并
02:51Mellanox随之加入了InfiniBand阵营
02:552001年
02:55他们推出了自己的首款InfiniBand产品
02:58可是让人没想到的是,2002年
03:01InfiniBand阵营突遭巨变
03:04这一年,英特尔公司“临阵脱逃”,
03:06决定转向开发PCI Express
03:09也就是PCIe
03:12而另一家巨头微软
03:13也退出了InfiniBand的开发
03:15尽管SUN和日立等公司仍选择坚持
03:19但是InfiniBand的发展似乎已然蒙上了一层阴影
03:232003年开始
03:24InfiniBand转向了一个新的应用领域
03:27那就是计算机集群互联
03:29这一年
03:30美国弗吉尼亚理工学院创建了一个基于InfiniBand技术的集群
03:35在当时的全球超级计算机500强测试TOP500中排名第三
03:412004年
03:42另一个重要的InfiniBand非盈利组织诞生
03:45那就是开放Fabrics联盟,OFA
03:48OFA和IBTA是配合的关系
03:51IBTA主要负责开发、维护和增强Infiniband协议标准
03:56而OFA负责开发和维护Infiniband协议和上层应用API
04:02到了2005年
04:03InfiniBand又找到了一个新的场景
04:05就是存储设备的连接
04:07老一辈的网络工程师一定记得
04:10当年InfiniBand和FC是非常时髦的SAN技术
04:13再后来
04:14InfiniBand技术逐渐深入人心
04:17开始有了越来越多的用户
04:19市场占比也不断提升
04:21到了2009年,在TOP500榜单中
04:24已经有181个采用了InfiniBand技术
04:27不过
04:28当时千兆以太网当时仍然是主流
04:31占了259个
04:33在InfiniBand逐渐崛起的过程中
04:35Mellanox也在不断壮大
04:37逐渐成为了InfiniBand市场的领导者
04:402010年
04:41Mellanox和Voltaire公司合并
04:43InfiniBand主要供应商只剩下了Mellanox和QLogic
04:48不久之后,2012年
04:49英特尔公司出资收购了QLogic的InfiniBand技术
04:53返回到InfiniBand的竞争赛道
04:562012年之后
04:57随着高性能计算HPC需求的不断增长
05:00InfiniBand技术继续高歌猛进
05:03市场份额不断提升
05:05到了2015年
05:06InfiniBand技术在TOP500榜单中的占比首次超过了50%,
05:11达到257套,占比为51.4%。
05:15这标志着InfiniBand技术首次实现了对以太网技术的逆袭
05:19InfiniBand成为了超级计算机最首选的内部连接技术
05:232013年
05:24Mellanox相继收购了硅光子技术公司Kotura和并行光互连芯片厂商IPtronics
05:31进一步完善了自身产业布局
05:342015年
05:35Mellanox在全球InfiniBand市场上的占有率达到了80%。
05:40他们的业务范围
05:41已经从芯片逐步延伸到网卡、交换机/网关、远程通信系统和线缆及模块等全领域
05:49成为世界级的网络提供商
05:52面对InfiniBand的赶超
05:53以太网也没有坐以待毙
05:552010年4月,IBTA发布了RoCE技术
05:59也就是基于融合以太网的远程直接内存访问
06:02将InfiniBand中的RDMA技术“移植”到了以太网中
06:072014年
06:07他们又提出更加成熟的RoCE v2版本
06:11有了RoCE v2
06:12以太网大幅缩小了和InfiniBand之间的技术性能差距
06:16结合本身固有的成本和兼容性优势
06:19又开始反杀回来
06:21在这张2007年到2021年的TOP500技术占比图中
06:26我们可以看到
06:272015年开始
06:2925G以及更高速率的以太网崛起
06:32迅速成为行业新宠
06:34一度压制住了InfiniBand
06:362019年,英伟达公司豪掷69亿美元
06:39成功的收购了Mellanox
06:41击败对手英特尔和微软
06:43二者分别出价60亿和55亿美元
06:46成功地收购了Mellanox
06:47对于收购原因
06:48英伟达CEO黄仁勋是这么解释的
06:51这是两家全球领先高性能计算公司的结合
06:55我们专注于加速计算
06:57而Mellanox专注于互联和存储
06:59现在看来
07:00老黄的决策是非常有远见的
07:03也正如大家所见,AIGC大模型崛起
07:06整个社会对高性能计算和智能计算的需求发生了井喷
07:10想要支撑如此庞大的算力需求
07:13必须依赖于高性能计算集群
07:15而InfiniBand
07:16在性能上是高性能计算集群的最佳选择
07:20将自家的GPU算力优势与Mellanox的网络优势相结合
07:24就等于打造了一个强大的“算力引擎”。
07:27在算力基础设施上
07:28英伟达毫无疑问占据了领先优势
07:31如今,在高性能网络的竞争上
07:34就是InfiniBand和高速以太网的缠斗
07:37双方势均力敌
07:39不差钱的厂商
07:40更多会选择InfiniBand
07:42而追求性价比的
07:43则会更倾向高速以太网
07:45剩下还有一些技术
07:46例如IBM的BlueGene、Cray
07:49还有Intel的OmniPath
07:51基本属于第二阵营了
07:53介绍完InfiniBand的发展历程
07:55接下来
07:55我们再看看它的工作原理
07:58为什么它会比传统以太网更强
08:01它的低时延和高性能
08:02究竟是如何实现的
08:04前面我们提到
08:05InfiniBand最突出的一个优势
08:08就是率先引入RDMA
08:10Remote Direct Memory Access
08:12远程直接数据存取协议
08:15在传统TCP/IP中,来自网卡的数据
08:18要先拷贝到核心内存
08:20然后再拷贝到应用存储空间
08:22或者从应用空间将数据拷贝到核心内存
08:25再经由网卡发送到Internet
08:28这种I/O操作方式
08:29需要经过核心内存的转换
08:32它增加了数据流传输路径的长度
08:34增加了CPU的负担
08:36也增加了传输延迟
08:38而RDMA相当于是一个“消灭中间商”的技术
08:41RDMA的内核旁路机制
08:43允许应用与网卡之间的直接数据读写
08:46将服务器内的数据传输时延降低到接近1us
08:51同时,RDMA的内存零拷贝机制
08:54允许接收端直接从发送端的内存读取数据
08:58绕开了核心内存的参与
09:00极大地减少了CPU的负担
09:02提升CPU的效率
09:03应该说
09:04InfiniBand之所以能迅速崛起
09:07RDMA居功至伟
09:09从InfiniBand的网络拓扑结构中可以看出
09:12InfiniBand是一种基于通道的结构
09:14组成单元主要分为四类
09:16分别是HCA(Host Channel Adapter
09:20主机通道适配器
09:22TCA(Target Channel Adapter
09:24目标通道适配器)
09:26InfiniBand link,也称连接通道
09:29可以是电缆或光纤
09:31也可以是板上链路
09:33以及组网用的InfiniBand交换机和路由器
09:36通道适配器就是搭建InfiniBand通道用的
09:39所有传输均以通道适配器开始或者结束
09:43从而确保安全
09:44或者在给定的QoS级别下工作
09:47使用InfiniBand的系统可以由多个子网组成
09:50每个子网最大可由6万多个节点组成
09:53子网内部由InfiniBand交换机进行二层处理
09:56而子网之间则使用路由器或网桥进行连接
10:01InfiniBand的二层处理过程也非常简单
10:04每个InfiniBand子网都会设一个子网管理器
10:07生成16位的本地标识符LID
10:10InfiniBand交换机包含了多个InfiniBand端口
10:13并且根据第二层本地路由标头中包含的LID
10:17将数据包从其中一个端口转发到另一个端口
10:20除了管理数据包外
10:22交换机不会消耗或生成任何数据包
10:25简单的处理过程
10:26加上自有的Cut-Through技术
10:28InfiniBand将转发时延大幅降低至100ns以下
10:33明显快于传统的以太网交换机
10:36在InfiniBand网络中
10:37数据同样采用串行方式
10:40以最大4KB的数据包形式进行传输
10:43InfiniBand协议同样采用了分层结构
10:46各层相互独立,下层为上层提供服务
10:49其中
10:50物理层定义了在线路上如何将比特信号组成符号
10:54然后再组成帧、数据符号以及包之间的数据填充等等
10:58详细说明了构建有效包的信令协议等
11:02链路层定义了数据包的格式以及数据包操作的协议
11:06比如流控、路由选择、编码、解码等
11:09网络层通过在数据包上添加一个40字节的全局的路由报头GRH
11:15来进行路由的选择
11:17对数据进行转发
11:19在转发的过程中
11:20路由器仅仅进行可变的CRC校验
11:23这样就保证了端到端的数据传输的完整性
11:27传输层再将数据包传送到某个指定的QP
11:30也就是Queen Pair中
11:31并指示QP该如何处理这个数据包
11:35可以看出
11:35InfiniBand拥有自己定义的1-4层格式
11:39是一个完整的网络协议
11:41而端到端的流量控制
11:43是InfiniBand网络数据包发送和接收的基础
11:46可以实现无损网络
11:48说到QP,我们需要多提几句
11:51它是RDMA技术中通信的基本单元
11:53QP,也叫队列偶,就是一对队列
11:56包括发送工作队列SQ
11:59Send Queue和接收工作队列RQ
12:02Receive Queue
12:03用户调用API发送接收数据的时候
12:05实际上是将数据放入QP当中
12:08然后以轮询的方式
12:09将QP中的请求一条条的处理
12:12InfiniBand物理链路可以用铜缆或光缆
12:16针对不同的连接场景
12:17也可能需要使用专用的InfiniBand线缆
12:20InfiniBand在物理层定义了多种链路速度
12:24例如1X
12:254X,12X
12:26每个单独的链路是四线串行差分连接
12:30以早期的单数据速率SDR规范为例
12:331X链路的原始信号带宽为2.5Gbps
12:384X链路是10Gbps,12X链路是30Gbps
12:43因为采用了8b/10b编码
12:45所以1X链路的实际数据带宽为2.0Gbps
12:48由于链路是双向的
12:50因此相对于总线的总带宽是4Gbps
12:54随着时间的推移
12:56InfiniBand的网络带宽不断升级
12:58从早期的SDR、DDR、QDR、FDR、EDR、HDR
13:03一路升级到NDR、XDR、GDR
13:07最后
13:07我们再来看看市面上的InfiniBand商用产品
13:12英伟达收购Mellanox之后
13:14于2021年推出了自己的第七代NVIDIA InfiniBand架构——NVIDIA Quantum-2
13:20整个平台包括
13:22NVIDIA Quantum-2系列交换机、NVIDIA ConnectX-7 InfiniBand适配器、BlueField-3 InfiniBand DPU
13:30以及相关的软件
13:31其中呢NVIDIA Quantum-2系列交换机采用了紧凑型的1U设计
13:36包括风冷和液冷版本
13:38交换机的芯片制程工艺呢为7纳米
13:41单芯片呢拥有570亿个晶体管
13:44比A100的GPU呢还多
13:45采用了64个400 Gbps端口
13:48或者是128个200 Gbps端口的灵活搭配
13:52提供总计51.2T bps的双向吞吐量
13:56NVIDIA ConnectX-7 InfiniBand适配器
13:59支持PCIe Gen4和Gen5
14:02具有多种外形规格
14:04可以提供400Gbps的单或双网络端口
14:07根据行业机构的预测到2029年
14:10InfiniBand的市场规模将达到983.7亿美元
14:14相比于2021年的66.6亿美元增长14.7倍
14:18在预测期2021-2029内的复合年增长率为40%
14:24好了今天
14:24我们简单地回顾了一下
14:26InfiniBand的发展历史和基本原理
14:28相信在高性能计算和人工智能计算的强力推动下
14:32infiniband的发展前景呢还是令人非常期待的
14:35究竟他和以太网谁能笑到最后
14:37还需要时间来告诉我们答案
14:40感谢大家观看本期视频
14:41我们下期再见