算力芯片，终局之战？

发布时间:

来源: 电子产品世界

今天这篇文章的时候，我内心是焦虑的，甚至有点悲观。

本文引用地址：

中国的芯片界同仁，不可谓不努力：充满艰难险阻的工作，数十年如一日的煎熬，直面国际巨头的竞争。在芯片具体产品层面，别人有性能优势，我们有价格优势。不敢说能打个你来我往，但至少还有还手之力。

然而，在计算生态方面，我们则完全没有招架之力。计算生态就像一只无形的手，抹去了我们仅有的一点可能的机会，阻挡着我们前进的步伐，让我们距离世界先进越来越远。

更令人焦虑的是未来：一方面，计算生态的作用在不断地加强；另一方面，不同领域不同处理器的计算生态有进一步融合的趋势，逐渐形成新的超级生态。两相叠加，一旦超级生态逐步建立，后进者再无翻身的可能。

未来5-10年，大，将迎来终局之战。

1 计算架构的发展趋势

1.1 计算架构的发展阶段

随着算力需求越来越高，同构CPU的业务场景越来越少，基于GPU或AI等DSA处理器的异构计算已经成为主流。从发展的角度看，随着大模型等算力场景的持续挑战，未来会进一步从异构计算走向异构融合计算。

如果按照处理器类型的数量进行分类，可以分为三个阶段：

第一阶段，单个处理器，即CPU同构计算阶段。
第二阶段，两个处理器，即CPU+GPU或CPU+其他专用加速处理器的异构计算阶段。
第三阶段，三个或三个以上处理器，即多异构或异构融合计算阶段。

行业在创新处理器的设计和实现方面进行了很多探索，比如存算一体、重构计算、类脑计算、量子计算等等。这些新型的计算架构设计或实现方法，从系统指令复杂度的视角，可以归属到DSA或ASIC的范畴。因此，这些创新，没有跳脱异构融合计算的大框架。

以我目前浅薄的认识，个人觉得：异构融合计算，将是计算架构的终极形态。

1.2 CPU同构，单个处理器，单个生态

虽然仅仅只有一个处理器，但其计算生态已经是地狱级难度。

Intel x86架构的优势，是在众多处理器架构的厮杀中逐步确立的。随着x86的优势地位确立，基于x86架构的软件生态逐渐成熟，即便是Intel自己，也无法改变这一局面。

Intel的64位安腾（Itanium）处理器，是一个非常典型的失败的案例。安腾是Intel于2001年推出的64位架构的CPU处理器，Intel对之寄予厚望。虽然是Intel的亲儿子，虽然是功能强大的64位CPU架构，虽然安腾的架构和微架构设计非常优秀，但因为和x86的不兼容，完全一个新的生态，不可避免的走向了失败（2021年7月29日是安腾处理器最后的出货日期，英特尔正式告别了这款使用IA-64指令集的纯64位处理器）。

与此形成鲜明对比的，是AMD64的成功。2003年，AMD推出了业界首款 64 位处理器 Athlon 64，带来了AMD64（x86-64）指令集，即x86指令集的64位扩展超集，具备向下兼容的特点。因为向下兼容，继承性地往前发展，最终成就了AMD64的成功。

1.3 GPU异构，两个处理器，两个生态融合

相对于Intel的x86 CPU计算生态是百家争鸣的胜者，NVIDIA GPU的CUDA生态，则是数年孤独后的一鸣惊人。

在NVIDIA GPGPU之前，GPU真的就只是GPU，即专用于图形计算的加速卡。这一时期的GPU，符合DSA的定义规范，可以当作是专用于图像领域的G-DSA。直到NVIDIA GPGPU的出现。

2006年，NVIDIA发布GPGPU。NVIDIA发现，图像处理有很多并行处理的部件，于是决定将这些专用的处理完全改造成通用的高效能小CPU核，于是GPGPU诞生了。虽然此时，GPGPU已经足够通用，但其编程难度很高，于是NVIDIA又贴心地开发了CUDA计算框架。即便如此，早期的CUDA功能并不强大，开发仍然不够友好。很多开发者并不看好，认为CPU多核才是正确的发展道路。

直到2012年，Alexnet的问世，深度学习时代的来临，NVIDIA GPU+CUDA才成了热门的计算平台，助推着NVIDIA市值超越一众竞争对手，成为全球市值第一的芯片公司。再紧接着，2018年，AI大模型逐渐流行。进一步把这股浪潮推向高潮，NVIDIA GPU一时间“洛阳纸贵”，同时，NVIDIA的市值突破了万亿美金大关。

我们再来看CPU和GPU的融合。

2022年初，NVIDIA正式宣布，收购ARM失败。假如，NVIDIA收购ARM成功，这场大的“战争”，基本上可以提前给出结果：NVIDIA获胜，其他家永无出头之日。好在这件事情没有成行，“战争”的结果，仍存在变数，这场“战争”仍在继续。

之后，NVIDIA退而求其次，与ARM的深度合作，开发了Grace系列高性能CPU，以及CPU+GPU整合的Grace Hopper系列超级芯片。

2 计算生态的极端重要性

在之前，我一直以为Transformer之所以能够脱颖而出的最大原因就是那篇论文的标题：“Attention is all you need”，优势来源于算法本身。最近一段时间，跟好几位AI领域的专家交流下来，他们的观点是：有很大一部分原因是因为，Transformer比较好的实现了并行处理，能够最大限度的利用GPU并行的算力，因此才能够实现更大参数规模的大模型，进而获得更好的智能体验。

这个案例可以得到这样一个结论：只有NVIDIA GPU+CUDA生态亲和的模型才能最终走出来；如果不是NVIDIA GPU+CUDA架构和生态友好的模型，哪怕实际效果再好，也受限于模型效率、参数规模和成本等方面的劣势，无法脱颖而出。

或者说，大模型发展，强依赖于NVIDIA的GPU+CUDA计算生态。

在我的个人观点里，一直以来，都是非常重视生态的难度和重要性的。但最近几年，随着认识的进一步加深，我的想法得到了进一步修正。计算生态很重要，但过去10年左右的发展，使得计算生态的重要性，比我们大家想象的要更加重要：