此后,“一石激起千层浪”。在黄仁勋强大“带货”能力的加持下,DPU概念一炮而红,吸引业内众多竞争者纷至沓来。从海外的英特尔、博通、英伟达、AMD、Marvell,到中科驭数、芯启源、云豹智能、云脉芯联等30余家国内厂商,每一家企业都在摩拳擦掌,跃跃欲试。
有行业人士甚至表示,未来,用于数据中心的DPU量级将达到和数据中心服务器等量的级别。“每台服务器可能没有GPU,但一定会有一块或者几块DPU/IPU卡,这将是一个千亿量级的市场。”
“三U一体”,构建算力底座
DPU的前身可以追溯到普通网络接口卡(NIC)和SmartNIC,但它们彼此间的身份转变并非改改名字这么简单。DPU是面向数据中心的专用处理器,新增了AI、安全、存储和网络等各种加速功能,将成为新一代的重要算力芯片——它能够完成性能敏感且通用的工作任务加速,更好地支撑CPU、GPU的上层业务,成为整个网络的中心节点。
中科驭数创始人、CEO鄢贵海说如果把CPU比做大脑,那么GPU和DPU就好比是肌肉和神经中枢。CPU承载了应用生态,决定了计算系统是否可以通用;GPU提供了高密度各类精度的算力,决定了系统是否有足够的“力量”;DPU负责数据在各种CPU和GPU之间高效流通,决定了系统是否能协同工作。“三U一体”(CPU-GPU-DPU)成为主流算力节点的发展趋势。
但当前,DPU正面临着三大关键挑战:
人工智能时代,堪比人脑神经元数量的模型规模,注定了算力需求必然暴涨。而迭代出的更好的模型对数据又会有更大的胃口,更大参数规模的模型;更大的算力意味着更高的智能。至此,算力与智能的正循环彻底启动了,难以逆转。
虽然摩尔定律已然放缓,但是单芯片规模还在不断上升,“Super Computer on a single Chip”已经成为现实。这就意味着单个芯片的IO性能要求必然更高了,否则,就会面临“茶壶里面煮饺子——倒不出来”的尴尬。
算力的供给方式多样化与灵活性持续增强,客户的算力成本亟待降低,这就要求必须在算力底座核心芯片上面下功夫。
关于这三点其实不难理解,城市扩大了,如果基础设施和治理机制跟不上,就会出现“大城市病”。同理,芯片变大了,没有配套好基础设施和治理机制,也会出现“大芯片病”。
我们不能采用线性的思维来解决这个问题:城市扩大一倍,所有车道数量并不能简单的也扩大一倍,而是需要地铁、轻轨、立交桥等新型的基础设施和相应的高效流控机制。同样的道理,解决“大芯片病”也一样,也需要技术创新才有可能解决。
因此,不能将DPU简单视作为单一芯片,而应该从三个维度重新定义其价值:第一,架构决胜,用最先进的芯片架构来重新定义DPU芯片架构:第二,软件护城,用最高兼容性来重新定义DPU的软件系统;第三,平台上门,用最低的成本让客户接入DPU规模化部署与业务验证。
按照Gartner技术成熟度曲线Hype Cycle的规律,也就是一项新技术从创新、发展、过热、回归、沉淀、再进入正常规模化应用的常规发展路径来看,DPU首次出现在Hype Cycle里是在2021年,即“下一代SmartNICs/DPUs/IPUs”,预计需要5-10年到达成熟期,现在距离预测最早成熟期还有两年。而AI算力的加速发展,正在加速DPU的成熟。
图源:中科驭数
清华大学教授、中国工程院院士郑纬民在一次活动上曾表示,大数据、算法和算力已经成为人工智能产业发展的三架马车,“算力是数字经济的底座,没有算力,做不了ChatGPT。而芯片是算力的核心,是算力提升的关键所在。”而DPU作为专注于解决算力基础设施层各种数据流量负载的芯片,其发展的主要驱动力也必然来自于对算力基础设施的更高要求——正所谓顺势而为。
“抢滩”DPU
短短几年时间对于一种具备巨大产业化价值的芯片技术而言并不算长,但是对于一种新的大类芯片类型,数家国际国内芯片业巨头短时间内组织研发力量,并投入巨资“抢滩”式发布DPU产品也不是常见的现象。
NVIDIA于2020年发布了代号为BlueField 2的DPU产品,并高调宣称这是数据中心场景下的“第三颗支柱型芯片(原文为the third pillar)”。从当时公布的DPU产品路线图来看,BlueField-3/3X和BlueField-4分别于2022年和2023年问世,届时,将可提供400TOPS的AI算力和400Gbps的带宽性能,从而解放GPU,只在单芯片DPU上就可实现网络、存储、安全等关键任务的加速工作。
图源:NVIDIA
同年,Marvell发布了采用Neoverse N2 CPU内核和台积电5nm制程工艺的OCTEON 10系列DPU,支持PCIe 5.0 I/O、DDR5内存、以及机器学习(ML)引擎。次年,芯片巨头Intel携全新的重磅产品IPU(Infrastructure Processing Unit)加入了对DPU市场的争夺。
前思科高管创立的科技公司Pensando在2020年HotChips会议上首次披露了其DPU的设计,主打P4,同时对PCIe设备虚拟化、存储、信任根、加解密进行了方案的支持,从技术来看甚至有领先后续披露DPU产品的行业巨头厂商的势头(该公司于2022年被AMD高价并购)。
在国内的DPU产品方面,中科驭数在6月发布了第三代DPU芯片K2-Pro,并且在网络时延指标和吞吐性能都处于业界同期较为领先的水平。阿里云也发布了CIPU产品、天翼云、移动云也分别发布了自研的DPU加速卡产品,还有移动云、天翼、云豹等。
当然,也有“抢滩”受阻的。例如2020年DPU初创明星企业Fungible以1.9亿美元的低价卖给了微软;2024年,以色列DPU初创公司Pliops和法国DPU公司Kalray准备合并,目的显然是报团取暖,加快DPU的研发和上市速度;国内方面,7月,*ST左江发布公告,宣布收到深交所关于公司股票终止上市的决定,标志着这家曾号称对标英伟达DPU,市值最高超过300亿元的“史上最贵ST股”落幕。
事实上,DPU能否大规模商业化取决于两点:第一是成本,一颗DPU卖5万块钱,做得再好也不太可能大规模商业化。现在DPU成本仍然很贵,英伟达的DPU大约在三四千美金以上,要想达到比较大规模的量产,DPU还要进一步降低成本。第二是软硬件成熟度,虽然现在算力基础设施从原来“网络+交换节点”这种分布式的系统结构朝着“三U一体”的趋势演进,但是所有趋势沉淀都需要时间,对于大芯片而言,3-5年就想让它走向成熟是不现实的,也许可能需要5-10年才能成熟。
DPU产业应用落地开花
与CPU、GPU这些通用芯片不同,DPU的发展与实际业务场景是紧密绑定的,不同的应用会催生完全不同的DPU架构。只有根据不同场景进行有针对性的优化,才能最大限度发挥DPU的优势。
而对中国市场来说,最不缺的就是业务场景。从目前的落地情况来看,DPU系列产品高效赋能各行各业,已成功为金融、通信、交通、数据中心等众多领域提供算力底座支持。
首先,在云计算方面。基于DPU的方案使得裸金属服务的业务逻辑发生了明显变化,可以大大缩短裸金属服务的交付时间,实现了虚拟网络功能的全面卸载,也为存算分离相关的多种存储技术提供了统一的接口。数据研究预测,DPU在云计算市场的应用需求最大,且市场规模随着云计算数据中心的迭代而增长,到2025年,仅中国的市场容量都将达到40亿美元的规模。
其次,在智算中心领域。以AIGC应用来看,DPU在智算中心中的关键作用与价值主要有支持超大规模组网算力互连、支持100G+超高带宽、通过使用RDMA来提供模型训练所需超低时延和抖动、其NVMe- oF技术可提供更高效的存储读取和处理能力等四方面。
在5G通信领域。在5G通信网络快速发展的过程中,算力和网络融合发展需要更加绿色高效的数据处理硬件加速技术,亟待DPU提升系统性能。DPU将在高性能数据处理、低延迟数据传输、网络管理、存储,以及安全等基础设施底层建设发挥关键作用。DPU通过接手CPU不擅长的网络协议处理、数据加解密等数据处理任务,不仅可以提高网络传输效率,而且释放了CPU算力资源。在新型算力DPU的加持下,能够提供灵活高效的硬件加速服务,支持云基础设施层功能卸载,云边协同、云网一体都将逐步实现。
最后,在证券基金行业。金融信创已步入深水区,由“边缘替代”迈向“核心替代”。核心交易系统对网络时延的需求从毫秒级提升到微秒甚至纳秒,低时延网络领域的核心设备长期被国外厂商Solarflare与Mellanox垄断,时延和安全问题成了制约银行、证券、期货等行业发展的难点之一。而自主研发的低时延网络DPU卡构建超低时延网络,可支撑金融交易核心链路从底层硬件到上层应用系统具备超低时延、低抖动、完全自主可控等特性,在超低时延网络领域真正打破垄断,实现国产升级替代。
国内DPU研发需转变思维定式
工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门近日联合印发《算力基础设施高质量发展行动计划》。该计划具体规定了到2025年,算力基础设施发展的主要目标、重点任务和保障措施等,并重点提出针对智能计算、超级计算和边缘计算等场景,开展DPU等技术升级与试点应用,实现算力中心网络高性能传输。这是国家层面的文件首次对未来3年的DPU发展指明了方向。
在郑纬民院士看来,DPU芯片作为重要算力基础设施,在实现自主可控方面也具有重要的战略意义。“国外厂商英伟达、英特尔、AMD都有推出相应的DPU产品。面对新形势新要求,国产DPU要持续加强基础研究,充分利用资源和技术优势,紧密围绕产业创新能力和产业链完整新发展,深入推进核心技术突破,打造核心技术制高点。在DPU这一领域我们也要打破国外芯片巨头的垄断,助力算力领域的安全自主可控。”
芯启源日前在其公众号上发布了一篇题为《揭开网络控制器芯片DPU国产替代序幕》的文章。几位作者在文中指出,随着数字化转型的深入和“新基建”的推进,网络数据流量激增,网络控制器芯片作为高性能计算的关键部件,也迎来了黄金发展时期。
但国外网络控制器芯片产品在技术成熟度和市场占有率方面具有显著优势。国际巨头如NVIDIA、Intel和AMD等公司,凭借其在芯片设计和制造领域的深厚积累,推出了在数据处理速度、能效比和系统集成度等方面高性能系列产品。这些厂商通过技术迭代创新和市场拓展,形成了强大的品牌影响力和客户忠诚度,巩固了其在全球网络控制器芯片市场的领先地位。
而国内网络控制器芯片产品在技术研发和产业化过程中面临一系列挑战。网络控制器芯片技术涉及多个领域,包括网络处理、存储管理、安全加密等,需要高度专业化技术团队和深厚的技术积累。国内厂商在核心知识产权、制造工艺和系统集成等方面与国际巨头存在一定差距,限制了产品竞争力。新产品的研发周期长,国内企业在融资渠道、投资规模和回报周期等方面均存在诸多短板。
“回顾50年前的1971年,当英特尔发布首颗CPU的时候,中国还没有改革开放;20多年前的1997年,英伟达发布了让它起死回生的GeForce系列GPU,国内我们还处于浓浓的‘做不如买,买不如租’的氛围中;在4年前,当DPU成为了风口浪尖的热点时,国内企业已经提前出发了2年。“鄢贵海说,这一次,我们终于有希望不仅是起得早,还希望能赶上早集。其秘诀,就是全栈技术自主研发,重硅前验证,快速迭代。用理论来指导实践,而非盲目地诉诸于通过工程试错来优化设计,把理论优势用到极致。
结语
DPU很旧,旧到可以完全取代传统网卡的功能。网卡俗称为“网络适配器”,其唯一的功能就是接收网络发来的数据和把数据通过网络发送出去,实现“上网”,好比交通的——绿皮车时代,解决全国主要城市基本通铁路的问题。
然而,DPU也很新,新到被称为这个十年最重要的创新,被寄予了数据中心三大支柱芯片之一的定位,戴上了“PU”的王冠。好比数据网络的——高铁时代,已经不仅仅是连通城市问题,而是彻底重构了地理位置的逻辑距离。