中科驭数第三代DPU K2-Pro正式发布：有什么细节值得关注？

继CPU、GPU之后，DPU已经逐渐成为数据中心第三颗主力芯片。国际上，Nvidia、Intel、AMD、Marvell都在抢滩DPU，国内阿里云、天翼云、移动云也开始推出DPU相关产品。据不完全统计，迄今为止，国内已经有了三十多家DPU公司。

6月19日，中科驭数第三代DPU芯片K2-Pro正式发布。它是目前国内首颗量产全功能DPU算力芯片，产品主要面向未来数据中心和云原生场景并进行了定制优化。

“3U”一体正在成为未来趋势

“DPU看似像一张网卡，但实际上它在网卡基础上进行了诸多创新，已经成为当下算力基础设施的核心创新之一。打个比方来说，CPU是大脑，控制着一切；GPU是肌肉，堆砌着算力；DPU则是中枢神经，协同着前两者更高效地运作。”中科驭数CEO鄢贵海如是说。

他继续补充道，DPU相当于是算力底座的“基带“，在算网融合的大趋势下，DPU的多元组合处理能力，将使得“3U”一体（CPU+GPU+DPU）更加紧密，成为主流算力节点发展趋势。

“3U”一体中，CPU作为通用算力，负责维护应用生态，分部资源管理；GPU作为智能算力，负责大模型训练和推理，处理视频、VR、AR应用；DPU作为基础算力，远程资源本地化，异构资源虚拟化。

鄢贵海强调，不论是CPU、GPU厂商，还是云厂商，“3U”一体已成为重要趋势。国内在推行“3U” 一体时，面临的芯片发展阶段和产业格局与国外不同，尤其是国内的云厂商，现在也是一个竞争激烈的状态。这涉及到大量的落地部署、运营管理、成本管控和适配工作，面临许多挑战。

对于这些问题，没有太好的捷径。中科驭数从一开始就投入了大量资源建设生态。生态建设的问题不是短期内靠砸钱就能在半年内快速实现。

清华大学教授中国工程院院士郑纬民同样强调了DPU在未来的重要性，“多元复杂的应用场景对计算提出要求，发展算力是顺应新时代浪潮，高质量经济的要求。没有算力做不了ChatGPT也做不了元宇宙。算力经济已经成为全球竞争焦点。芯片是算力的关键所在。DPU芯片作为算力基础设施在实现自主可控方面具有重要战略意义。”

国产厂商怎么立足DPU市场

“中科驭数必须用一年走过别人三年的路，才有可能在市场竞争中赢得生存空间。”鄢贵海表示，中科驭数充分理解了“效率赢得生存”的道理，在复杂大型芯片每代产品普遍3～5年的研发周期中，中科驭数用6年的时间，完成了三代芯片的迭代，平均每代芯片迭代仅有不到2年的时间。

此外，在成本控制上，也远小于行业的平均值。其秘诀——就是全栈技术自主研发，重硅前验证，快速迭代。用理论来指导实践，而非盲目地诉诸于通过工程试错来优化设计，把理论优势用到极致。

金融街资本党委书记、董事长兼总经理程瑞琦则表示，DPU是在2020年左右才开始进入大家的视野，因此想要实现自主DPU不仅要解决Know-How的问题，还要解决技术积累方面的问题，这需要企业更早地介入技术研究之中。中科驭数团队多年深入计算机体系结构研究的技术底蕴，前瞻布局DPU技术，为落地开辟广阔天地。

顺应当前的趋势，不断理解客户的需求，才能在竞争中取得胜利。鄢贵海强调，革命性的产品，绝不仅仅是指标升级，而是深度契合了技术趋势的发展。当前行业的趋势是算力需求暴涨，使得芯片规模快速增长，进而使得开销迅速上升。所以，如何帮助让用户节省开销就显得尤为重要了。

中科驭数最新推出的K2-Pro便能够为提升数据中心的网络吞吐量，降低传输延迟，提高数据传输效率，同时为云计算、智能计算、高性能计算等场景提提供纯国产高性能的网络解决方案。

K2-Pro的三大法宝

目前，中科驭数的第三代DPU芯片K2-Pro已经实现全面量产。相比上一代K2，K2-Pro在功能、性能、稳定性、灵活性、系统管理、能效性六大维度实现重大升级。产品亮点主要包括：

芯片自主可控：该芯片实现了全面的全自研，自研KPU专用计算架构、自主研发指令集、自研网络处理器、自研编译器、自研芯片供应链、全国产化板级方案、国产CPU/OS兼容；
灵活可编程：包括可编程片上网络（NOC），灵活配置DPU片上资源，可编程包处理器引擎（NP）+表处理引擎（DOE），支持面向L2到L7层协议二次开发，PCIe扩展接口，可外挂处理器/FPGA/安全芯片等；
高性能网络：包括100G X2的高速网络卸载引擎，40Mpps包处理能力，600M 次/s查表能力；
软件标准完善：自研HADOS软件平台，兼容DPDK、SPDK主流框架，标准Linux API，拥有完善的SDK；
高性能安全：拥有80Gbps安全流量卸载，支持国密、商密、ROT；
高性能存储：2M IOPS、100Gbps线速带宽，基于SPDK的存储卸载，支持NVMe-oF TCP/RDMA。

根据根据中科驭数高级副总裁、CTO卢文岩的介绍，K2-Pro的性能可以对标英特尔、Marvell的网卡芯片，端到端延时做到1.2微秒以下，整体能效也比英伟达BF2（Bluefield）好很多。

卢文岩介绍，K2-Pro拥有三大法宝。一是自主研发了KPU架构，它拥有软件可以定义、超高并行、超强性能（数据流架构、近存储架构）三大特点。

二是首创的DPU指令集架构KISA，经过6年时间，中科驭数推出KISA1.0版本，目前总共拥有212条指令，它能够引领“软件定义硬件”技术路线让开发更简单、更高效直达DPU算力。根据介绍，KISA计算密度更高、面向数据、实现敏捷异构，通过一套指令集，统一调度和管理。

三是全新发布的HADOS 3.0，其内部包括ADIP以及业界首个DPU Emulator全仿真平台HADEP。

通过HADOS 3.0能够解决DPU规模应用的三大痛点：集群升级迁移成本大、周期长、学习门槛高，大规模使用、部署和运维难度大，安全性与高可用的构建极具挑战。

可以说，配合HADOS中的编译器和工具，开发者可以真正发挥出K2-Pro的真正功效。

国际各厂商技术路线的选择

从K2Pro产品形态来看，中科驭数的产品采用了纯ASIC的形态。国际各家厂商技术路线各有选择。

2020年，英伟达在GTC战略发布中将DPU定义为“第三颗主力芯片”，并相继推出Bluefield（BF）二代、三代、四代，该产品主要采用CPU+ASIC的形态。再到2023年、2024年迎来产品大规模应用的关键阶段，英伟达逐步把原来狭义的DPU剥离出来，将DPU概念转移到到NV-Link上，只是不把NV-Link叫DPU。CPU+ASIC也成为最主流的方式，Marvell、Broadcom均采用这种形式。

除英伟达外，英特尔与AMD两家芯片巨头亦有DPU项目布局。其中，英特尔基础设施处理器（IPU）定位与DPU类似，产品形体则主要是FPGA+x86 SoC。AMD则在2022年以19亿美元收购Pensando并正式进军DPU领域，产品形态为SoC。

英伟达采用CPU+AISC或IPU的方案，主要依赖CX网卡通道进行处理。比如说，BF（BlueField）系列就是CX，即专用的数据通路+控制通路路线，英伟达的做法并没有使用特别复杂的控制面。

但一些使用大核的公司，最近推出的大核芯片厂商的功耗都很高。行业内对此路线开始有些质疑，认为可能难以持续。比如在BF2和BF3中使用A72或A78处理器，即便仍未采用第九代更先进的N2或N1处理核，但其BF2功耗已经超过100瓦，许多场景下功耗超过100瓦，BF3功耗在130至160瓦之间。

而现在，AMD采用的可编程的处理核心+轻量级控制，最近表现出较强的生命力。因此，现在业界技术共识的趋势是走重数据通路+轻量级控制，大家越来越认同这种DPU的发展路线。中科驭数就走在这样的路上。

中科驭数的下一步

与英伟达这样的巨头相比，国产DPU企业的压力无疑是巨大的。以体量仅为英伟达1%的企业去做同样的事情并全方位超越，实际上是不现实的。产业的成熟需要时间。

“如果国外企业是大学生水平，我们可能还处在小学生水平，这需要我们逐步补课，耐心做好每一步。”鄢贵海比喻道，因此想要做好DPU，就专注做DPU，而不是分散力量去做CPU和GPU。在每个阶段都需要有高质量的企业，做到单品领先，成为单项冠军，再寻求未来发展。

谈及大规模商业化，鄢贵海认为关键点在于成本，现在DPU通常不便宜，英伟达的DPU也在三四千美金以上，因此想要扩大应用规模，一定要进一步降低成本。

根据鄢贵海的预估，2024年全年中科驭数DPU芯片K2-Pro出货量将会超过10K颗，预计未来三年DPU产品出货量将突破百万量级。

展望中科驭数的下一阶段，预计2025年将推出14nm制程的第四代DPU芯片K3，采用最新KPU架构及KISA 2.0指令集，集成RISC-V轻量级控制核，处理带宽将是K2-Pro的四倍，达到800G，延迟低于1微秒，功耗比K2-Pro下降40%。