中科驭数第三代DPU K2-Pro正式发布:有什么细节值得关注?

2024-06-28  

继CPU、GPU之后,DPU已经逐渐成为数据中心第三颗主力芯片。国际上,Nvidia、Intel、AMD、Marvell都在抢滩DPU,国内阿里云、天翼云、移动云也开始推出DPU相关产品。据不完全统计,迄今为止,国内已经有了三十多家DPU公司。


6月19日,中科驭数第三代DPU芯片K2-Pro正式发布。它是目前国内首颗量产全功能DPU算力芯片,产品主要面向未来数据中心和云原生场景并进行了定制优化。


3U”一体正在成为未来趋势


“DPU看似像一张网卡,但实际上它在网卡基础上进行了诸多创新,已经成为当下算力基础设施的核心创新之一。打个比方来说,CPU是大脑,控制着一切;GPU是肌肉,堆砌着算力;DPU则是中枢神经,协同着前两者更高效地运作。”中科驭数CEO鄢贵海如是说。


他继续补充道,DPU相当于是算力底座的“基带“,在算网融合的大趋势下,DPU的多元组合处理能力,将使得“3U”一体(CPU+GPU+DPU)更加紧密,成为主流算力节点发展趋势。


“3U”一体中,CPU作为通用算力,负责维护应用生态,分部资源管理;GPU作为智能算力,负责大模型训练和推理,处理视频、VR、AR应用;DPU作为基础算力,远程资源本地化,异构资源虚拟化。



鄢贵海强调,不论是CPU、GPU厂商,还是云厂商,“3U”一体已成为重要趋势。国内在推行“3U” 一体时,面临的芯片发展阶段和产业格局与国外不同,尤其是国内的云厂商,现在也是一个竞争激烈的状态。这涉及到大量的落地部署、运营管理、成本管控和适配工作,面临许多挑战。


对于这些问题,没有太好的捷径。中科驭数从一开始就投入了大量资源建设生态。生态建设的问题不是短期内靠砸钱就能在半年内快速实现。


清华大学教授中国工程院院士郑纬民同样强调了DPU在未来的重要性,“多元复杂的应用场景对计算提出要求,发展算力是顺应新时代浪潮,高质量经济的要求。没有算力做不了ChatGPT也做不了元宇宙。算力经济已经成为全球竞争焦点。芯片是算力的关键所在。DPU芯片作为算力基础设施在实现自主可控方面具有重要战略意义。”


国产厂商怎么立足DPU市场


“中科驭数必须用一年走过别人三年的路,才有可能在市场竞争中赢得生存空间。”鄢贵海表示,中科驭数充分理解了“效率赢得生存”的道理,在复杂大型芯片每代产品普遍3~5年的研发周期中,中科驭数用6年的时间,完成了三代芯片的迭代,平均每代芯片迭代仅有不到2年的时间。


此外,在成本控制上,也远小于行业的平均值。其秘诀——就是全栈技术自主研发,重硅前验证,快速迭代。用理论来指导实践,而非盲目地诉诸于通过工程试错来优化设计,把理论优势用到极致。


金融街资本党委书记、董事长兼总经理程瑞琦则表示,DPU是在2020年左右才开始进入大家的视野,因此想要实现自主DPU不仅要解决Know-How的问题,还要解决技术积累方面的问题,这需要企业更早地介入技术研究之中。中科驭数团队多年深入计算机体系结构研究的技术底蕴,前瞻布局DPU技术,为落地开辟广阔天地。


顺应当前的趋势,不断理解客户的需求,才能在竞争中取得胜利。鄢贵海强调,革命性的产品,绝不仅仅是指标升级,而是深度契合了技术趋势的发展。当前行业的趋势是算力需求暴涨,使得芯片规模快速增长,进而使得开销迅速上升。所以,如何帮助让用户节省开销就显得尤为重要了。


中科驭数最新推出的K2-Pro便能够为提升数据中心的网络吞吐量,降低传输延迟,提高数据传输效率,同时为云计算、智能计算、高性能计算等场景提提供纯国产高性能的网络解决方案。


K2-Pro的三大法宝


目前,中科驭数的第三代DPU芯片K2-Pro已经实现全面量产。相比上一代K2,K2-Pro在功能、性能、稳定性、灵活性、系统管理、能效性六大维度实现重大升级。产品亮点主要包括:


  • 芯片自主可控:该芯片实现了全面的全自研,自研KPU专用计算架构、自主研发指令集、自研网络处理器、自研编译器、自研芯片供应链、全国产化板级方案、国产CPU/OS兼容;

  • 灵活可编程:包括可编程片上网络(NOC),灵活配置DPU片上资源,可编程包处理器引擎(NP)+表处理引擎(DOE),支持面向L2到L7层协议二次开发,PCIe扩展接口,可外挂处理器/FPGA/安全芯片等;

  • 高性能网络:包括100G X2的高速网络卸载引擎,40Mpps包处理能力,600M 次/s查表能力;

  • 软件标准完善:自研HADOS软件平台,兼容DPDK、SPDK主流框架,标准Linux API,拥有完善的SDK;

  • 高性能安全:拥有80Gbps安全流量卸载,支持国密、商密、ROT;

  • 高性能存储:2M IOPS、100Gbps线速带宽,基于SPDK的存储卸载,支持NVMe-oF TCP/RDMA。


根据根据中科驭数高级副总裁、CTO卢文岩的介绍,K2-Pro的性能可以对标英特尔、Marvell的网卡芯片,端到端延时做到1.2微秒以下,整体能效也比英伟达BF2(Bluefield)好很多。



卢文岩介绍,K2-Pro拥有三大法宝。一是自主研发了KPU架构,它拥有软件可以定义、超高并行、超强性能(数据流架构、近存储架构)三大特点。



二是首创的DPU指令集架构KISA,经过6年时间,中科驭数推出KISA1.0版本,目前总共拥有212条指令,它能够引领“软件定义硬件”技术路线让开发更简单、更高效直达DPU算力。根据介绍,KISA计算密度更高、面向数据、实现敏捷异构,通过一套指令集,统一调度和管理。



三是全新发布的HADOS 3.0,其内部包括ADIP以及业界首个DPU Emulator全仿真平台HADEP。


通过HADOS 3.0能够解决DPU规模应用的三大痛点:集群升级迁移成本大、周期长、学习门槛高,大规模使用、部署和运维难度大,安全性与高可用的构建极具挑战。


可以说,配合HADOS中的编译器和工具,开发者可以真正发挥出K2-Pro的真正功效。



国际各厂商技术路线的选择


从K2Pro产品形态来看,中科驭数的产品采用了纯ASIC的形态。国际各家厂商技术路线各有选择。


2020年,英伟达在GTC战略发布中将DPU定义为“第三颗主力芯片”,并相继推出Bluefield(BF)二代、三代、四代,该产品主要采用CPU+ASIC的形态。再到2023年、2024年迎来产品大规模应用的关键阶段,英伟达逐步把原来狭义的DPU剥离出来,将DPU概念转移到到NV-Link上,只是不把NV-Link叫DPU。CPU+ASIC也成为最主流的方式,Marvell、Broadcom均采用这种形式。


除英伟达外,英特尔与AMD两家芯片巨头亦有DPU项目布局。其中,英特尔基础设施处理器(IPU)定位与DPU类似,产品形体则主要是FPGA+x86 SoC。AMD则在2022年以19亿美元收购Pensando并正式进军DPU领域,产品形态为SoC。


英伟达采用CPU+AISC或IPU的方案,主要依赖CX网卡通道进行处理。比如说,BF(BlueField)系列就是CX,即专用的数据通路+控制通路路线,英伟达的做法并没有使用特别复杂的控制面。


但一些使用大核的公司,最近推出的大核芯片厂商的功耗都很高。行业内对此路线开始有些质疑,认为可能难以持续。比如在BF2和BF3中使用A72或A78处理器,即便仍未采用第九代更先进的N2或N1处理核,但其BF2功耗已经超过100瓦,许多场景下功耗超过100瓦,BF3功耗在130至160瓦之间。


而现在,AMD采用的可编程的处理核心+轻量级控制,最近表现出较强的生命力。因此,现在业界技术共识的趋势是走重数据通路+轻量级控制,大家越来越认同这种DPU的发展路线。中科驭数就走在这样的路上。


中科驭数的下一步


与英伟达这样的巨头相比,国产DPU企业的压力无疑是巨大的。以体量仅为英伟达1%的企业去做同样的事情并全方位超越,实际上是不现实的。产业的成熟需要时间。


“如果国外企业是大学生水平,我们可能还处在小学生水平,这需要我们逐步补课,耐心做好每一步。”鄢贵海比喻道,因此想要做好DPU,就专注做DPU,而不是分散力量去做CPU和GPU。在每个阶段都需要有高质量的企业,做到单品领先,成为单项冠军,再寻求未来发展。


谈及大规模商业化,鄢贵海认为关键点在于成本,现在DPU通常不便宜,英伟达的DPU也在三四千美金以上,因此想要扩大应用规模,一定要进一步降低成本。


根据鄢贵海的预估,2024年全年中科驭数DPU芯片K2-Pro出货量将会超过10K颗,预计未来三年DPU产品出货量将突破百万量级。


展望中科驭数的下一阶段,预计2025年将推出14nm制程的第四代DPU芯片K3,采用最新KPU架构及KISA 2.0指令集,集成RISC-V轻量级控制核,处理带宽将是K2-Pro的四倍,达到800G,延迟低于1微秒,功耗比K2-Pro下降40%。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。