市场研究机构Dell’Oro的数据显示,预计到2024年,SmartNIC市场规模将超过6亿美元,占全球以太网适配器市场的23%。而整体控制器和适配器市场将以7%的年复合增长率增长,其中25Gbps和100Gbps的销售将是主要增长驱动力。
CPU不能承受之重
之所以能够取得如此高的增长率,原因在于目前数据中心内部流量(也称横向流量)的年复合增长率都在25%以上,但与此同时,随着SDN的增加,云服务器会在CPU和软件中使用很多SDN功能,使得高达30%的数据中心计算资源被分配用于联网I/O处理云数据。
坦率地说,如果听之任之,这个问题随着时间的推移只会越来越严重。
当前,以几何级数幅度增长的联网端口速度,远超摩尔定律和Dennard缩放比例定律(Dennard’s scaling)的计算周期速度,这种差距的存在使得服务器中所有的CPU资源都将遭到挤占,而无暇顾及应用级处理,降低了CPU利用率。如果是公有云的话,他们需要把这样的资源出售给客户来进行变现。但如果不能出售这些核心内容,云服务商就会赔钱,这是一个非常严峻的问题。
图1 端口速度超过摩尔定律
亚马逊和微软这样的一级云服务提供商在很多年前就意识到了上述问题的严重性,纷纷选择卸载掉服务器的联网功能,并将这部分工作转移到SmartNIC上运行,以便释放出更多的CPU核,优化服务器利用率,降低联网成本。
例如亚马逊收购了一家名为Annapurna的初创企业,专门开发类似的器件和SmartNIC,并在2017年发布了AWS Nitro;微软此前也通过将FPGA集成到SmartNIC上去卸载服务器的联网功能,并实现了数以百万计规模的部署;VMware则宣布将SmartNIC集成到VMware Cloud Foundation中的Project Monterey项目;而阿里云的做法是在其神龙服务器核心组件MOC卡中使用了专用的X-Dragon芯片,统一支持网络、I/O、存储和外设的虚拟化。
电信服务提供商则是另一大具有强劲增长潜力的市场,他们正考虑将SmartNIC从核心网集成到边缘网,为NFV和AI推断等应用提供服务。
不过,并非每一家公司都拥有足够的研发能力和人才储备去部署SmartNIC,因此目前有80%以上的云服务供应商尚未采用SmartNIC。相比之下,二、三级的厂商们就更加需要现成且方便的SmartNIC解决方案——无需自行开发,只需即插即用就可满足数据中心的卸载、存储和计算加速等需求。
数字基础设施中的新物种
2020年10月,英伟达将基于Mellanox的SmartNIC方案命名为数据处理单元(Data Processing Units, DPU),并将CPU、GPU、DPU称为组成“未来计算的三大支柱”。
不过,需要指出的是,从SmartNIC变为DPU并非简单的改改名字。为了在数据中心充分实现应用程序的效率,传输卸载、可编程的数据平面以及用于虚拟交换的硬件卸载等功能是SmartNIC的重要部分,但只是DPU的最基本要求之一。要将SmartNIC提升到DPU的高度,还需要支持更多的功能,比如能够运行控制平面,以及在Linux环境下提供C语言编程等。
说得再直白一些,DPU是面向数据中心的专用处理器,新增了AI、安全、存储和网络等各种加速功能,将成为新一代的重要算力芯片。它能够完成性能敏感且通用的工作任务加速,更好地支撑CPU、GPU的上层业务,成为整个网络的中心节点。
当然,我们还是要佩服黄仁勋的“带货”能力,能让DPU概念一炮而红,吸引业内众多竞争者纷至沓来。从海外的英特尔、博通、英伟达、赛灵思、Marvell、Netronome、Pensando、Fungible、Dream Big Semiconductor,到国内的DPU创企中科驭数、星云智联、大禹智芯、芯启源、云豹智能,每一家企业都在摩拳擦掌,跃跃欲试。
从英伟达公布的DPU产品路线图来看,BlueField-3/3X和BlueField-4将分别于2022年和2023年问世,届时,将可提供400TOPS的AI算力和400Gbps的带宽性能,从而解放GPU,只在单芯片DPU上就可实现网络、存储、安全等关键任务的加速工作。
Marvell今年6月最新推出的OCTEON 10系列DPU,采用了Armv9架构的Neoverse N2 CPU内核和台积电5nm制程工艺,支持最新的PCIe 5.0 I/O与DDR5内存。作为DPU的重要补充,Marvell还为OCTEON 10引入了内部机器学习(ML)引擎。这样,从本质上讲,Marvell正在成为英伟达的直接竞争对手。
英特尔在2021架构日上推出的全新基础设施处理器(IPU) Mount Evans其实也值得一提。按照英特尔的官方说法,IPU是一种可编程网络设备,扩展了英特尔的智能网卡功能,旨在使云和通信服务提供商减少在中央处理器(CPU)方面的开销,并充分释放性能价值。利用IPU,云运营商可以将基础设施任务卸载到IPU上,更大化实现CPU利用率和收益;客户则可以通过一个安全、可编程、稳定的解决方案更好地利用资源,使其能够平衡处理与存储。
再回到国内。根据Canalys Cloud Channels Analysis预测,到2023年,中国DPU市场规模将达190亿人民币。当然,还有其它分析机构的预测更加乐观,认为中国DPU市场规模预计将在2025年超过37亿美元,约合240亿人民币。
中科驭数算是国内布局较早的一家DPU企业,其DPU基于自主研发的KPU(Kernel Processing Unit)架构。以KPU架构为核心,中科驭数在2019年设计了业界首颗数据库与时序数据处理融合加速芯片,已经成功流片。今年初,该公司又宣布了其下一颗DPU芯片研发计划,功能层面包括完善的L2/ L3/L4层的网络协议处理,可处理高达200G网络带宽数据,预计将于2021年底流片。
另一家DPU芯片企业“芯启源”则在6月宣布完成数亿元Pre-A3轮融资。这是一家针对超大规模电信和企业级的智能网络提供核心芯片和系统的高科技公司,可提供从芯片、板卡、驱动软件和全套云网解决方案产品,已获得了中国移动苏研院的首批智能网卡订单。
成立于2021年3月22日的星云智联专注于数据中心基础互联通信架构和DPU芯片研发,今年4月宣布完成数亿元天使轮融资。其正在研发的DPU将在IAAS和PAAS之间形成独立的CAAS(通信服务层)),实现物理资源的“多虚一”和近乎裸金属性能的“一虚多”,可以简化IAAS,提升资源利用率。
有行业人士表示,未来,用于数据中心的DPU量级将达到和数据中心服务器等量的级别。“每台服务器可能没有GPU,但一定会有一块或者几块DPU/IPU卡,这将是一个千亿量级的市场。”作为数字基础设施中的新物种,火热的DPU赛道未来会走出怎样一波行情,值得期待。
本文为《国际电子商情》2021年12月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击
相关文章