DPU是以数据处理为中心的芯片,2020年NVIDIA战略中国将其称为CPU、GPU之后“第三颗主力芯片”,认为“它将成为未来计算的三大支柱之一”。头豹研究院预测,数据中心领域DPU即将放量,随智能驾驶、元宇宙等其他领域的需求被不断挖掘,DPU渗透应用领域将持续扩大,中国 DPU市场规模将有望于2026年达到1095.3亿元。
DPU市场的火热引得国内外大厂纷纷入局,也催生出了一批批创业公司。那么目前主要有哪些DPU玩家呢?
国外厂商
Nvidia
Nvidia创立于1993年,总部位于美国加利福尼亚州圣克拉拉市。1999年,Nvidia定义了GPU,极大地推动了PC游戏市场的发展,重新定义了现代计算机图形技术。2020年4月,NVIDIA官方宣布已完成对Mellanox的收购,产品布局覆盖CPU、GPU和DPU。
NVIDIA BlueField DPU为现代数据中心带来了创新。通过对各种高级网络、存储和安全业务进行卸载、加速和隔离,BlueField DPU 可为云、数据中心或边缘计算等环境中的各种工作负载提供安全加速的基础设施。BlueField DPU 将强大的计算能力、完整的片上基础设施可编程性及高性能网络相结合,支撑要求严苛的工作负载。
NVIDIA BlueField-3 是首款以线速处理软件定义网络、存储和网络安全的 400Gb/s DPU。BlueField-3 将强大的计算能力、高速网络和广泛的可编程性相结合,为要求苛刻的工作负载提供软件定义的硬件加速解决方案。从加速 AI 计算,到混合云,再到云原生超级计算和 5G 无线网络,BlueField-3 重新定义了各种可能性。
官网:https://www.nvidia.com/en-us/
AMD
AMD半导体公司成立于1969年,专门为计算机、通信和消费电子行业设计和制造各种CPU、GPU等微处理器。2022年2月,AMD终于完成了对Xilinx的收购,这笔价值接近500亿的交易为AMD带来了Xilinx的FPGA可编程逻辑模块和相关的DSP引擎、AI加速器、内存控制器等关键技术,为AMD补齐了技术储备。
Xilinx提供的DPU/SmartNIC是 Alveo 系列,Alveo 系列基于 FPGA,能够加速计算密集型应用程序,包括机器学习推理、数据分析、视频转码和许多其他工作负载,Alveo 系列的性能比 CPU 的性能高90倍,并且能够根据用户的具体要求对其进行重新编程,由于算法比芯片设计周期发展得更快,因此需要能够适应不断变化的算法的可编程硬件。
Xilinx Alveo SN1000 是业界首款为单个平台中的所有功能卸载提供软件定义硬件加速的 SmartNIC。SN1000 SmartNIC 直接卸载 CPU 密集型任务以优化网络性能,其架构可以以线速加速各种自定义卸载,包括支持客户构建和第三方卸载。SN1000 SmartNIC 基于 Xilinx 16nm UltraScale+™ 架构,由低延迟 Xilinx XCU26 FPGA 和 16 核 Arm® 处理器提供支持。
2022年5月,AMD 宣布完成对 Pensando Systems 的收购,交易价格约为 19 亿美元。Pensando 的分布式服务平台,将通过高性能数据处理单元(DPU)和软件堆栈扩展 AMD 的数据中心产品组合。这些产品已在高盛、IBM Cloud、Microsoft Azure 和 Oracle Cloud 等云和企业客户中大规模部署。Pensando 的 Elba SoC 是一款专注于智能网络交换机的DPU,上一款 Capri DPU被用于 Aruba CX 10000 。
官网:https://www.amd.com/en
Intel
在“Intel Vision 2022”,大会上Intel公布了其最新的IPU路线图,展示了从2022年至2026年IPU的整体规划。英特尔将继续 ASIC + FPGA IPU 设计,其IPU路线图如下:
Mount Evans是Intel首个ASIC IPU,与Google Cloud合作开发,针对高端和超大规模数据中心服务器。Oak Springs Canyon是Intel第二代基于 FPGA 的 IPU 平台,该平台采用Intel Xeon-D和Agilex FPGA 构建。
Intel IPU 技术的关键之一是所有设备都支持的快速可编程数据包处理引擎。无论是 FPGA 还是基于 ASIC 的产品,客户都可以使用P4 对其进行编程,并支持查找、更改、加密和压缩等流程。
另外,Intel还推出了IPU的开源开发工具包IPDK ,它可以用于为x86芯片和Arm芯片(如Marvell的Octeon)编写应用程序。该工具包包括用于自定义和定义工作负载的功能块,其中包括卸载包处理。(更多可点击:IPDK:可编程基础设施时代的开源开发框架)
官网:https://www.intel.com/
Marvell
Marvell成立于1995年,总部在硅谷,在中国上海设有研发中心,是一家提供全套宽带通信和存储解决方案的全球领先半导体厂商。
Marvell的OCTEON和ARMADA设备设计用于无线基础设施和网络设备,包括交换机、路由器、安全网关、防火墙、网络监控和智能网卡(SmartNIC),并支持全面统一的SDK和开源API,用于广泛的网络、安全和计算市场应用。
Marvell 的 OCTEON 10 DPU 系列针对超大规模云工作负载、5G 无线传输、5G RAN 智能控制器 (RIC) 和边缘推理、运营商和企业数据中心应用以及无风扇网络边缘盒进行了优化。OCTEON 10采用台积电5nm制程工艺和ARM的Neoverse N2 CPU内核,外加上一代OCTEON TX2的众多功能构建块阵列,同时还包括集成机器学习推理的引擎、内联加密处理器以及矢量数据包处理器等先进的IP以及功能,而且都能够以虚拟化方式运行。作为DPU的重要补充,Marvell还为OCTEON 10引入内部机器学习(ML)引擎。
官网:https://www.marvell.com/
Broadcom
Broadcom的Stingray 结合了强大的网络控制器、高性能 ARM CPU、PCI Express 3.0、性能加速器和 DDR4 RAM,将计算密集型应用程序从主机服务器的 CPU 卸载。
Stingray 能够提供高数据包速率和低延迟。Broadcom以NetXtreme E系列控制器的逻辑为基础,在Stingray的核心部分设计了NetXtreme-S BCM58800芯片,然后在集群配置中放置了8个主频为3 GHz的Arm v8 A72内核。此外,Stingray还可以配置16 GB DDR4内存。
Broadcom还采用了TruFlow技术,这是一个可配置的流加速器,用于将常见的网络流过程转移到硬件中。从已发布的数据来看,TruFlow可以在硬件上卸载诸如Open vSwitch(OvS)之类的任务。该公司还声称TruFlow在硬件中实现了许多经典的SDN概念,比如分类、匹配和操作。因此,Stingray配备了两个可编程组件,即TruFlow和由四个3 GHz双核Arm v8 A72复合体组成的集群。
官网:https://www.broadcom.com/
Fungible
2019年,Fungible将DPU定义为一种新型数据处理单元。Fungible的F1 DPU是业内第一个800Gbps的DPU,也是Fungible DPU系列的旗舰产品。
在架构上,F1 DPU集成了大量的多核处理器,52个核心均为最新一代的MIPS64 R6内核,不仅支持硬件虚拟化也将其分为独立的控制单元。F1 DPU采用了双发射流水线设计,配有64KB的L1 I-cache和80KB的L1 D-Cache,且L1缓存支持缓存之间的数据传输,总计片上L2缓存达到32MB。内存方面,F1 DPU除了集成8GB的HBM外,还支持双通道每通道最高512GB的DDR4内存。
利用了独特的硬件与软件结合设计,在不影响数据中心计算能效的前提下,F1 DPU提供了最大的功能灵活性。这使得F1 DPU可以用于高性能密度和低时延的环境,比如存储(NVMe/TCP存储卸载)、安全、AI/ML(GPU解耦)和数据分析服务器(OLAP、OLTP大数据分析引擎)。以存储为例,在无需x86 CPU和AFA的存储系统中,F1 DPU可以做到15M IOPS的表现,而这里的带宽限制完全是来自于PCIe本身的带宽限制。
官网:https://www.fungible.com/
AWS
追溯DPU的源头,真正实现大规模商用DPU架构的主要有两家云计算巨头:Amazon AWS和阿里云。Amazon Nitro系统从 2013 年开始研发,2017 年正式发布,旨在最大化性能和安全。
AWS Nitro产品家族旨在将数据中心开销(为虚拟机提供远程资源、加密解密、故障跟踪、安全策略等服务程序)全部从CPU卸载到Nitro加速卡上,将给上层应用释放30%的原本用于支付“Tax” 的算力。
Nitro系统主要由三部分组成:
官网:https://aws.amazon.com/cn/
国内厂商
阿里云
阿里云于2017年10月推出的神龙架构被业界视作迄今最成功的DPU之一。如今,第四代阿里云神龙已经开始支撑阿里云的大规模云上业务。
2022年阿里云峰会上,阿里云发布了一款云数据中心专用处理器CIPU(Cloud infrastructure Processing Units),号称将替代CPU成为云时代IDC的处理核心。CIPU相对轻量级,不是通用计算类芯片,而是专用于云计算数据中心的管控,可以综合调度CPU、GPU、存储硬盘、交换机等硬件。
阿里云的CIPU和亚马逊AWS的Nitro定位类似。它既是硬件盒子,也是管控系统,对接飞天云操作系统。CIPU主要由专用芯片和控制器构成,形态像盒子或智能网卡,主要用于管理飞天云操作系统。
官网:https://www.aliyun.com/
芯启源
芯启源成立于2015年,聚焦网络通讯、5G和云数据中心等众多先进领域,客户包括且不限于运营商及二级运营商、路由器交换机设备商、OTT及互联网厂商、网络安全厂商、5G/6G设备商等。
芯启源具有完全自主知识产权的DPU芯片。芯启源DPU较传统智能网卡提供了更大的处理能力、更强的灵活性、可编程数据包处理、可扩展Chiplet(小芯片)结构等特性。采用NP-SoC模式进行芯片设计,通用ARM架构结合高度优化面向数据包的NP芯片(RISC-V内核)、多线程的处理模式,使其可以达到ASIC固化芯片的数据处理能力,同时考虑到了全量可编程、灵活可扩展的属性,用以支持400Gbps及以上的性能目标、低功率且具有成本效益等。
芯启源DPU架构中采用的Chiplet(小芯片)技术是一种全新的芯片设计方式,也是业内众多企业正在引入的关键芯片技术。Chiplet将满足特定功能的Die(裸片)通过Die-To-Die内部互联技术实现多个模块芯片与底层基础芯片封装在一起,形成一个系统芯片。Chiplet技术将原本一块复杂的SoC芯片分解为芯粒,类似模块化设计,有利于缩短产品商用时间和后续产品的迭代,同时通过支持与第三方芯片的Die-To-Die互联,还可以集成更多的特定专业领域的芯片。在性能和功能丰富度有飞跃式提升外,也为芯启源的客户提供更多业务场景的支持能力。
官网:
https://www.corigine.com.cn/cn/index.html
益思芯
益思芯科技成立于2020年7月,团队由国内外网络、交换、存储领域的核心专业人员组成,在网络、交换、存储及高性能CPU等领域具有深厚的技术实力。
Stargate DPU智能网卡是国内第一款商用、具有自主知识产权的P4可编程云原生智能网卡,益思芯科技的P4网络加速引擎是全球首款针对vSwitch加速而设计的VLIW ISA P4处理器,支持千万级流表的同时性能可以做到数据包线速转发。该网卡是OVS、NFV、SDN vRouter、5G UPF等网络应用加速的最佳选择,具备高性能、低延迟、高灵活性、低功耗等特点:
官网:http://www.resnics.com/
云脉芯联
云脉芯联创立于2021年5月,是一家专注于云数据中心网络芯片产品研发与技术创新的高科技创新企业。
2022年5月31日,云脉芯联正式发布自主研发的国内首款多场景RDMA智能网卡(DPU)产品——xFusion50。2023上半年,云脉芯联将发布下一代高性能DPU芯片。xFusion50是云脉芯联成功自主研发的第一款产品,也是国内首款实现包括支持端到端拥塞控制完整RDMA功能的DPU产品,xFusion50基于硬件实现的可编程拥塞控制算法能够有效避免网络拥塞,充分发挥RDMA技术的低延迟和高性能,支持云计算、高性能计算、AI、存储集群全场景部署。xFusion50产品具有以下核心亮点:
官网:https://www.yunsilicon.com/
中科驭数
中科驭数成立于2018年,聚焦专用数据处理器的研发设计,基于自研敏捷异构KPU芯片架构以及DPU软件开发平台HADOS,公司自主研发了业界首颗融合高性能网络与数据库一体化加速功能的DPU芯片和标准加速卡系列产品,可广泛应用于超低延迟网络、大数据处理、5G边缘计算、高速存储等场景,助力算力成为数字时代的新生产力。
在DPU产品的研发迭代方面,中科驭数于2019年流片了第一代DPU芯片K1,第二代DPU芯片K2也于2022年初成功投片,目前已开始第三代DPU芯片K2 Pro的研发工作;2021年9月,中科驭数首发DPU加速卡产品,其时延达到业界领先的1.2微秒。另外也有DPU存储加速卡、DPU数据计算加速卡等产品和解决方案在研发进程中。在产品核心技术特色方面,中科驭数的DPU芯片创新性地采用软件定义加速器技术路线,实现了软硬协同的DPU设计方案。具体创新点如下:
官网:
https://www.yusur.tech/zkls/zkys/index.html
大禹智芯
大禹智芯成立于2020年,其创始及核心团队由国内外互联网、云计算头部公司以及传统网络、芯片、安全头部厂商的资深专家组成,拥有DPU设计与研发及DPU大型商业化部署的成功经验。
大禹智芯Paratus系列DPU产品采用三条产品线并行的方式逐步面向广泛商用市场推出易用并好用的DPU产品:
官网:https://www.dayudpu.com/