中国HPC，潜力无限

高性能计算（High performance computing），是一种利用超级计算机或计算机集群的能力实现并行计算，以处理标准工作站无法完成的数据密集型计算任务的技术，常见的应用领域有仿真模拟、机器学习和深度学习等。

本文引用地址：

或许有人没有听过，但是一定听过超级计算机，它就是的主要实现方式之一。数据显示，高性能计算系统的运行速度比商用台式机或服务器系统快一百万倍以上。原因在于高性能计算能够让整个计算机集群为同一个任务工作，以更快的速度来解决一个复杂问题。

提供了超高浮点计算能力解决方案，可用于解决计算密集型、海量数据处理等业务的计算需求，如科学研究、气象预报、计算模拟、军事研究、CAD/CAE、生物制药、基因测序、图像处理等，大量缩短计算时间，提高计算精度。

此前，HPC 由于其专业度极高的特点被局限在科研实验室、大型企业和特定的学术组织研究中。不过随着近两年 AI 技术与 IoT 应用之间的互相驱动，数据量和计算需求暴涨，5G 将数据传输管道大大拓宽之后，同样给了数据囤积量进一步拓展的空间，HPC 也逐渐变得日益重要。

目前，国产已经取得了不错的成绩。

中国成绩斐然

2023 年 6 月，最新一期超级计算机 TOP500 榜单公布，从 TOP500 榜单中就可以读出中国在顶尖超级计算机研发上的努力已经凸显出来。

在 61 期全球超级计算机 TOP500 榜单中排名第一的是美国的 Frontier、第二名为日本的 Fugaku、第三名芬兰的 LUMI、第四名意大利 Leonardo、第五名美国 Summit、第六名美国 Sierra、第七名中国神威·太湖之光、第八名美国 Perlmutter、第九名美国 Selene、第十名 TH—2 天河二号。

历年来，中国屡屡登榜 TOP500。神威·太湖之光超级计算机甚至曾连续获得 top500 四届冠军，该系统全部使用中国自主知识产权的处理器芯片。天河二号也曾 6 次蝉联冠军，天河二号采用麒麟操作系统，目前使用英特尔处理器，将来计划用国产处理器替换。

不只是排名领先，在上榜数量上，中国的高性能计算机也有实力「扛大梁」。

根据 2023 年 6 月公布的最新 TOP500 榜单，美国为超级计算机上榜数量最多的国家，共上榜 150 套，占比 30%; 中国以 134 套上榜数量紧随其后，占比 26.8%; 除中美两国之外，德国、日本、法国、英国、加拿大均有 10 套及以上进入 TOP500 榜单的超级计算机系统。

中国初步形成的高性能计算产业链由上、中、下游构成，以上所述企业均为中游企业，他们的角色是负责对上游的资源进行整合，提供强大的超算资源。

看到此处想必已有不少人开始疑惑，中国 CPU 的发展之路道阻且长，那么中国高性能计算机又是如何取得今日这番成绩的呢？其上下游的发展现状又如何了？

在这之前首先要了解的是，高性能计算机的发展历程。

高性能计算机的发展历程

1975 年，中国开始研制第一台超级计算机。1983 年，「银河 1 号」面世，之后又研制出曙光系列超算。2009 年，「天河 1 号」超算诞生，这是我国第 1 台千万亿次级超算。2010 年，经过升级之后的「天河 1 号」位居全球计算机 500 强第一位。2013 年，「天河 2 号」再次名列超级计算机 500 强排行榜世界第一，并蝉联多年。

值得注意的是，当时中国所有的超级计算机都采用了英特尔的芯片，中国多次在全球超级计算机 TOP 500 强榜单中夺冠的天河二号使用的就是英特尔的 Xeon 众核处理器+Xeon Phi 加速卡。

随后 2015 年，美国政府禁止本国企业向中国出口与世界上最快的超级计算机相关的技术，国家超级计算长沙中心、广州中心、天津中心和国防科技大学四家国家超算中心被列入出口管制名单。

不过，管制并不能阻碍中国高性能计算机发展的步伐。2016 年 6 月 20 日，在法兰克福世界超算大会上，「神威·太湖之光」超级计算机系统震撼亮相，登顶榜单之首，不仅速度比第二名「天河二号」快出近两倍，其效率也提高 3 倍。「神威·太湖之光」共有 40960 块处理器，全都采用了中国自研架构的「申威 26010」众核处理器。

并且除了「神威」系列，「天河」系列和「曙光」系列超级计算机也都自研了芯片，像「天河」系列超级计算机已经全面掌握「五大」自主核心技术，即具有自主知识产权的四大芯片和自主操作系统。

接下来再看，高性能计算机与 CPU 的「命数不同」。

高性能计算机与 CPU「命数不同」

众所周知，一台普通电脑一般只有一颗 CPU（GPU 同理），每颗 CPU 内一般只有 2~8 个物理核心，而一般的超级计算机有成千上万颗 CPU，每颗 CPU 内一般有几十个物理核心。

比如 2010 年，位居全球超级计算机 500 强排行榜榜首的「天河一号」，其思路采用「CPU＋GPU」的设计思路，结合了大约 7000 个英伟达 GPU 和 14000 个英特尔 CPU，将 GPU 用于超级计算机，起到了「CPU 加速器」的作用。尽管「天河」的主要部件仍来自英特尔与英伟达两个美国制造商，但互联芯片则完全是中国自主研发，「天河」安装有由中国自主研发的「飞腾 1000」芯片，部分取代了进口芯片。

「天河 2 号」有 16000 个计算节点，每个节点由 2 片英特尔的 E5 2692 和 3 片 Xeon PHI 组成，共使用了 32000 片英特尔的 E5 2692 和 48000 片 Xeon PHI，属于 CPU＋众核芯片。正在升级的「天河 2 号」则将美国的 Xeon PHI 换成了自主研发的矩阵 2000，属于 CPU＋DSP。

神威·太湖之光超级计算机安装了 40960 个中国自主研发的申威 26010 众核处理器，该众核处理器采用 64 位自主神威指令系统，峰值性能为 12.5 亿亿次每秒，持续性能为 9.3 亿亿次每秒，核心工作频率 1.5GHz。

对于普通家用的电脑来说或许需要一个性能更高的 CPU 来为整机提供更好的调度能力，然而对于超级计算机来说并非如此。超级计算机的算力大小并不依赖狭义上的 CPU，超级计算机需要的是浮点算力，此外超级计算机还要看能耗，所以靠堆砌堆上去的单核心性能，对于超算系统未必合算。另外还有散热问题、单核心的能耗比也是需要考量的因素。也就是说，超级计算机比拼的是超算架构、调度算法、并行度等等。

所以单个 CPU 综合算力并不是决定性因素，高性能计算机也并非简单的堆料。CPU 要完成单核性能的冲刺需要面临底层指令集以及生态等因素的束缚，而对于高性能计算机来说，更强的芯片协同工作能力或能带来不菲的效果，这也正是中国的强项。

CPU+GPU 国产势力大增

多年来，Intel、AMD 两大巨头领跑通用 CPU（桌面与服务器 CPU）市场；不过随着国家的大力支持引导，国产 CPU 也开始奋力追赶，并且有所成绩。

国产 CPU 的优秀企业有走 X86 技术授权路线的海光和兆芯，ARM 指令集授权路线的华为鲲鹏和飞腾，以及自研指令集路线的龙芯和申威。

目前，龙芯中科是目前中国 CPU 企业中自主程度最高的企业之一，近日龙芯发布的基于龙架构的新一代 4 核心 8 线程处理器龙芯 3A6000 流片成功，龙芯称综合相关测试结果，龙芯 3A6000 处理器总体性能与 Intel 公司 2020 年上市的第 10 代酷睿四核处理器相当。3A6000 流片成功也代表了中国自主桌面 CPU 设计领域的最新里程碑成果。

申威主要面向军用等对安全性要求极高的特种领域，为其提供 CPU 处理器及其相关解决方案。在神威、太湖之光中使用的 SW26010 芯片，在服务器领域，浮点运算算力相比于同期国外处理器毫不逊色。

海光也是 CPU 市场的优秀标的，其 CPU 主要面向数据中心的服务器，产品兼容 x86 指令集以及国际上主流操作系统和应用软件，软硬件生态丰富，性能优异，安全可靠。

此外，鲲鹏、飞腾和兆芯都是国产 CPU 的佼佼者。

鲲鹏 920 已实现通用计算最强算力，性能优于其他厂商的同类型芯片。有测试结果显示，48 核心的鲲鹏 920 可以与 Intel 至强 8180 媲美，64 核心的鲲鹏 920 甚至超过 Intel 至强 8180。兆芯掌握自主通用处理器及其系统平台芯片研发设计的核心技术，全面覆盖其微架构等关键领域，构建了较为完整的知识产权体系。飞腾面向各类应用场景，已构建了 1000 多个从端到云自主可信的行业联合解决方案，芯片交付累计超过 600 万片，在国产 CPU 市场上占据了半壁江山。

再看 GPU。国内优秀的 GPU 芯片公司有寒武纪、华为昇腾、沐曦科技、海光信息、壁仞科技、阿里平头哥、燧原科技、天数智芯、景嘉微等。据悉，思元即将推出的 590 整体算力综合性能大约是 A100 的 70%。华为昇腾 910 算力强悍，在实际应用过程中，昇腾 910 的处理速度比业界同类产品快 80% 以上。

沐曦科技即将推出的 MXC500 是对标 A100/A800 的算力芯片，FP32 浮点性能可达 15TFlops，作为对比的是 A100 显卡 FP32 性能 19.5 TFLOPS。

壁仞科技的 BR100 发布时，凭借其超高的参数与性能引起了强烈的轰动。BR100 系列基于 7nm 制程工艺打造，拥有 770 亿个晶体管。由壁仞科技自主原创的芯片架构开发，采用 Chiplet（芯粒）、2.5D CoWoS 等先进的设计、制造与封装技术，可搭配 64GB HBM 2E 显存，超 300MB 片上缓存，支持 PCIe 5.0、CXL 互联协议等。

阿里在 2019 年就推出了「含光 800」，阿里曾表示，「含光 800」是当时全球最强的 AI 芯片，性能和能效比均为第一，1 颗「含光 800」的算力相当于 10 颗 GPU。此外，燧原科技、天数智芯、景嘉微也都推出了各家优秀的 GPU 产品。

HPC 成国际芯片龙头争夺要地

HPC 诞生于内部数据中心，拥有高速处理数据和执行复杂计算。为了做 HPC 领域的领导者，英伟达、AMD、英特尔在 HPC 应用领域也是进展不断。

英伟达：全面拥抱 HPC

迄今为止，英伟达已推出了面向 HPC 和 AI 训练的 Volta、Ampere、Hopper 等架构，并以此为基础推出了 V100、A100、H100 等高端 GPU。其中 Hopper H100 采用台积电 4 nm 工艺，具有 800 亿个晶体管，在性能、效率上远超 Ampere A100，是英伟达专为超级计算机设计的产品。

近日英伟达还发布新一代 GH200 Grace Hopper 超级芯片平台，是一款为大规模 AI 和高性能计算（HPC）应用量身打造的加速芯片。这款超级芯片在处理海量数据时，性能可提升高达 10 倍。由 72 核的 Grace CPU 和 GH100 Hopper 计算 GPU 组成。可以看到，英伟达已经做了充足的准备，全面迎接加速计算和生成式 AI 时代的到来。

AMD:到 2025 年，AMD EPYC、AMD Instinct 能源效率提高 30 倍

AMD 已经在高性能计算领域推出一系列性能领先的产品，涵盖了服务器 CPU、加速器，桌面 CPU、移动 CPU 等众多领域，全方位覆盖数字经济的高算力需求。此外，充分利用小芯片（Chiplet）技术，用先进的 2.5D 和 3D 封装技术，使 AMD 能够灵活的进行异构计算解决方案系统级优化。

目前 AMD EPYC 在 x86 服务器 CPU 市场的份额已超过 25%；其去年发布的 Instinct 生态系统以及此前的 ROCm 生态系统正在为拥有广泛基础的 HPC 和 AI 客户提供 Exascale 级（百亿亿次级）技术，满足计算加速的数据中心工作负载日益增长的需求。此外 AMD 预计在 2023 年至 2024 年推出 3nm Zen 5 架构处理器。

此外，AMD 还宣布了一项雄心勃勃的计划，目标是到 2025 年，在加速计算节点上运行的人工智能训练和高性能计算应用中，AMD EPYC 系列处理器和 AMD Instinct 计算卡的能源效率将提高 30 倍。

AMD 最新发布的 Instinct MI200 系列加速器的卓越性能也可助力高性能计算和人工智能训练。

英特尔：HPC 潜力股

作为高性能计算领域的创新引领者和推动者，英特尔近年来推出了英特尔至强处理器，英特尔至强融核处理器（Xeon Phi）、3D XPoint 全新非易失性存储技术、英特尔可扩展系统框架（英特尔 SSF）以及英特尔 Omni-Path 架构 (Intel OPA) 等众多创新产品和技术。

英特尔基于 Xe HPC 微架构的数据中心 GPU Ponte Vecchio 是迄今最复杂的 SoC，包含 1000 亿个晶体管，提供领先的浮点运算和计算密度，以加速 AI、HPC 和高级分析工作负载。而英特尔推出的 Ponte Vecchio 是为 Aurora 超级计算机提供动力的处理器，Aurora 超级计算机将会成为美国首批突破 exaflop 障碍的高性能计算机之一。

今年 3 月，英特尔官方发文表示，它们更新了高性能计算（High Performance Computing，简称 HPC）的路线图，并且宣布取消 Rialto Bridge 和 Lancaster Sound 的开发。英特尔表示 HPC Max 系列的重心将转移到 Falcon Shores XPU，该 XPU 原定于 2024 年推出，不过英特尔宣布推迟到 2025 年上线。

未来计算架构的发展趋势是 CPU 和 GPU 融合集成，从而形成互联、互补、互通的融合模式，以缩小计算和存储单元的通信成本。作为在 CPU 领域引领多年的英特尔，在这一趋势中也有着得天独厚的优势。英特尔 GPU 的愿景也逐渐清晰：在计算多元化、算力需求爆发式增长的大趋势下，英特尔 GPU 将成为驱动新兴行业发展的算力基石，同时也将成为英特尔自身业务增长的突破点。

未来，HPC 与 AI 将加速融合

如今，以 ChatGPT 为代表的生成式 AI 风头正热，ChatGPT 的上线或可被视作一次新产业革命的引爆点。而这个引爆点之所以能出现，离不开背后的 HPC（高性能计算）与大数据基础设施。当下 HPC 与 AI 正在加速融合之中。

HPC 不同于 AI。HPC 的运算精度是双精度浮点运算，64 位甚至 128 位的，所以加减乘除做得很快，它的应用领域主要有科学和工程计算、天气预报、核聚变模拟、飞行器设计。而 AI 计算机是半精度的，甚至是定点的，8 位的、16 位的、32 位的。AI 更适合进行分类、自然语言处理等工作，多应用在安防、互联网搜索推荐、智能制造等领域。

因此，HPC 与 AI 融合，也就意味着二者的研究模式相结合，这样 AI 也可以通过 HPC 方法去做验证，在保证速度的同时，提升精确度。借助 HPC 基础设施，可见未来 AI 能得到更好的发挥，两者融合将是未来几年的主流趋势。