跳转至

BlueField智能网卡由来

Mellanox 的背景

1成立与发展:

  • Mellanox 于 1999 年在以色列成立,总部位于加利福尼亚州桑尼维尔(Sunnyvale, CA)。
  • 专注于提供高性能网络解决方案,包括 InfiniBand 和以太网产品。

2被 NVIDIA 收购:

  • 2020 年,Mellanox 被 NVIDIA 以约 69 亿美元的价格收购。
  • Mellanox 的技术成为 NVIDIA 网络业务和 DPU 产品(如 BlueField 系列)的核心。

Mellanox 的主要产品

1InfiniBand 产品:

  • InfiniBand 是一种高性能、低延迟的网络互连技术,广泛应用于高性能计算(HPC)领域。
  • Mellanox 提供完整的 InfiniBand 解决方案,包括网卡(HCA)、交换机和软件堆栈。

2.以太网产品:

  • 提供用于企业数据中心和云计算的高性能以太网适配器和交换机。
  • 其 ConnectX 系列网络适配器支持 10G、25G、100G 和更高带宽,支持 RDMA、RoCE 等技术。

3.BlueField DPU(智能网卡):

  • Mellanox 技术是 NVIDIA BlueField DPU 的核心,提供高性能计算和存储加速能力。

4.交换机产品:

  • Mellanox Spectrum 系列交换机支持以太网和 InfiniBand互连技术,提供高吞吐量和低延迟。

5.软件和工具:

  • Mellanox 提供用于优化网络性能的软件工具,包括驱动程序、库和应用程序支持(如 Mellanox OFED 和 UCX)。

Mellanox 的技术优势

1.高性能和低延迟:

  • Mellanox 的网络设备在数据传输速率和延迟方面处于行业领先地位,特别是在 InfiniBand 和以太网领域。

2.支持 RDMA 技术:

  • RDMA(远程直接内存访问)技术允许网络设备直接访问远程服务器的内存,从而显著提高传输效率。

3.可扩展性:

  • Mellanox 的网络设备可以支持从小型集群到超大规模数据中心的各种网络需求。

4.生态系统广泛:

  • Mellanox 的产品广泛支持主流的操作系统和高性能计算框架,例如 Linux、Hadoop 和 OpenStack。

应用场景

1.高性能计算(HPC):

  • InfiniBand 技术被广泛应用于全球顶级超级计算机中。

2.数据中心:

  • Mellanox 的以太网产品为企业数据中心和云服务提供商提供了高性能解决方案。

3.人工智能(AI):

  • Mellanox 的网络设备用于加速分布式 AI 模型训练和推理。

4.存储加速:

  • Mellanox 技术支持 NVMe-oF 和其他存储协议,显著提高存储系统的性能。

Mellanox 是高性能网络技术的行业领导者,其产品广泛应用于 HPC、数据中心和企业网络领域。

被英伟达收购

Mellanox被英伟达(NVIDIA)收购后,其产品线,包括BlueField智能网卡(SmartNICs)和DPU(数据处理单元),都被纳入英伟达的产品体系。英伟达在收购后推出了升级版的BlueField系列(如BlueField-2和BlueField-3),并将这些产品整合到其加速计算和数据中心解决方案中。

什么是BlueField智能网卡

BlueField智能网卡(BlueField SmartNIC)是由NVIDIA开发的一种先进的网络接口卡,融合了高性能网络功能和可编程性。它不仅仅是一个传统的网卡,还具有强大的计算能力,可以执行数据处理和网络加速任务。以下是BlueField智能网卡的一些关键特点和应用:

1. 核心架构

  • DPU(数据处理单元):BlueField SmartNIC的核心是NVIDIA的DPU,这是一种专门为处理数据和网络负载设计的处理器。
  • Arm核心:通常配备多个Arm CPU核心,可运行独立的操作系统(如Linux),用于管理网络和存储任务。
  • 可编程性:支持用户自定义网络功能和服务编程,使其适用于多种场景。

2. 功能特点

1.网络加速

  • 支持RDMA、RoCE(以太网上的远程直接内存访问)等协议,能够大幅降低延迟和提升网络吞吐量。
  • 提供TCP/IP卸载功能,减轻主机CPU的负担。

2.安全功能

  • 支持零信任架构,提供加密、入侵检测和防火墙功能。
  • 能在网络数据进入主机之前,检测并处理潜在威胁。

3.存储加速

  • 提供NVMe-oF(NVMe over Fabrics)卸载,提升存储性能。
  • 支持数据压缩和加密功能。

4.虚拟化和容器支持

  • 支持虚拟机和容器网络加速,兼容Kubernetes、OpenStack等平台。
  • 支持SR-IOV(单根I/O虚拟化)和DPDK(数据平面开发套件)。

3. 应用场景

1.数据中心网络优化 BlueField智能网卡可以加速云数据中心的网络和存储操作,并显著降低CPU开销。

2.边缘计算 在边缘计算场景中,可实现本地数据处理和网络优化。

3.网络安全 BlueField智能网卡的可编程性允许用户在硬件层实现防火墙、数据加密和流量监控。

4.超融合架构 可作为超融合基础设施的一部分,提升网络和存储性能。


4. 与传统网卡的区别

特性 传统网卡 BlueField智能网卡
功能范围 仅提供数据传输 数据传输、加速、安全和计算
可编程性 支持用户自定义编程
对主机CPU的依赖 低,能够卸载大量任务
安全功能 基本无 强大的安全能力

BlueField智能网卡能做的事情非常广泛,具体取决于应用场景。它结合网络加速、存储优化和安全增强功能,可以在现代数据中心或边缘计算中发挥重要作用。以下是一个具体的例子,展示它的实际用途:


例子:云数据中心中的网络和安全优化

问题背景

在一个云数据中心,数千台服务器需要同时处理虚拟机和容器的网络请求,并确保数据传输的安全性。然而,传统网卡只能完成简单的网络转发任务,大量复杂的工作(如流量加密、数据过滤、防火墙规则等)需要由主机的CPU完成,导致:

  • 高CPU负载:主机CPU大部分资源被网络处理任务占用,无法高效运行应用程序。
  • 性能瓶颈:当并发连接数激增时,网络性能大幅下降。
  • 安全隐患:数据在传输中易受到攻击或窃取。

解决方案:使用BlueField智能网卡

1.卸载网络和安全任务

BlueField智能网卡配备DPU(数据处理单元),能够直接卸载以下任务:

  • 流量加密/解密:使用内置加密引擎处理所有入站和出站流量的加密。
  • 虚拟交换机功能:运行虚拟交换机(如Open vSwitch,OVS)在硬件上,大幅提升虚拟机和容器的网络性能。
  • 防火墙规则处理:在网卡层面检查和过滤恶意流量,而无需占用主机资源。
2.提升性能
  • 使用RoCE(以太网上的远程直接内存访问)协议实现低延迟网络通信,适合数据库和大规模分布式应用。
  • 加速NVMe-oF(NVMe over Fabrics)存储协议,使存储访问速度更快。
3.实现零信任安全架构
  • 在网卡上运行微隔离策略,每个虚拟机或容器的流量被独立加密并隔离。
  • 集成入侵检测系统(IDS)和入侵防御系统(IPS),实时分析和阻断恶意流量。

实际效果

在应用BlueField智能网卡后,云数据中心实现了以下优化:

  • CPU利用率降低:主机CPU的网络负载减少了60%,更多资源可用于运行用户应用。
  • 吞吐量提高:网络吞吐量提升了3倍,并发连接数大幅增加。
  • 安全性增强:数据在传输过程中始终加密,潜在攻击在网络入口处被拦截。

BlueField Bundle

是一个涵盖硬件、软件、开发、部署和管理的完整套件。它的目标是帮助用户充分利用 BlueField 智能网卡(DPU)的全部潜力,而不仅仅是提供网络和存储的基本访问能力。

BlueField Bundle 包含以下核心内容:

1.硬件驱动

  • 用于操作系统(如 Linux、Windows)支持 BlueField 智能网卡(DPU)的基础功能,比如网络和存储访问。

2.开发工具(SDK)

  • 包括 NVIDIA DOCA SDK,用于开发和优化基于 BlueField 的网络、存储和安全加速应用。

3.操作系统镜像

  • 为 BlueField 的 ARM 核心提供独立运行的操作系统(基于 Linux),支持配置和管理。

4.预置功能

  • 网络加速:支持 RDMA、RoCE 等高性能网络协议。
  • 存储优化:支持 NVMe-oF 协议,实现远程存储访问。
  • 安全增强:零信任架构、加密和隔离功能。

5.管理工具

  • 提供 CLI 和 Web 界面,用于配置和监控 BlueField 的状态和性能。

6.文档和支持

  • 包括技术手册、教程和示例代码,方便用户快速上手。

BlueField Bundle = 驱动程序 + 开发工具 + 操作系统 + 预置功能 + 管理工具 + 技术文档。

和dpdk的对比

指标 DPDK BlueField智能网卡
延迟 微秒级(受限于CPU和内存性能)。 纳秒级(硬件加速,无需主机介入)。
吞吐量 数百万PPS到10Gbps以上(依赖CPU)。 数十Gbps到100Gbps+(多接口并行)。
主机资源占用 高(占用多个CPU核和大页内存)。 低(完全卸载到DPU)。
适合场景 小规模网络优化,高灵活性需求。 数据中心、云计算、存储加速和多租户场景。
复杂协议支持 需通过软件实现,性能可能有限。 硬件原生支持,性能极高。