美国升级芯片出口管制措施 AI时代算力才是硬道理

10月17日，商务部工业和安全局（BIS）更新了“先进计算和制造设备出口管制规则”，对2022年10月7日规则的修改和强化。该规则尚处于公示期，将在30天后生效。

本文引用地址：

新规则将限制对中国市场销售，称更严格的控制针对A800和H800，在25天内审查以确定是否需要许可证才能向中国出售这类芯片。同时，还有13家中国企业被列入实体名单，其中包括摩尔线程、壁仞科技等。

对此，回应称不会对其收益产生立即的实质性影响，但可能会对其长期发展造成损害。此前，英伟达在二季度财报电话会议上披露，数据中心方面，中国的销售额占20-25%。

对于壁仞科技和摩尔线程来说，被列入实体清单意味着如果无法获得许可，不仅无法进口的技术或产品，也无法使用基于技术或设备的晶圆厂为其代工芯片。

升级芯片出口管制措施

根据2022年的规定，美国禁止出口超过两个标准的芯片：一个是功率标准，另一个是“互连带宽”即芯片之间的通信速度标准。而根据新规，将用“性能密度”（performance density）即每平方毫米的浮点运算次数来取代通信速度，阻止企业寻找变通方案。

例如，英伟达为了不违反美国出口限制规定针对中国市场推出了特供版芯片 —— 限制通信速度的A800/H800（处理速度约为A100/H100的70%），虽然保留了强⼤的计算能⼒，但训练大模型的时间将增加。不过即便如此，A800/H800在中国市场仍然被认为是用于训练/推理的最佳数据中心芯片。同样的还有英特尔针对中国市场推出的特供处理器Gaudi2等。

修订后的出口管制措施将禁止美国企业向中国出售运行速度达到300TFLOPS（即每秒可计算300万亿次运算）及以上的数据中心芯片。如果芯片的性能密度达到或超过每平方毫米370GFLOPS，速度在150-300TFLOPS之间的芯片将被禁止销售。以上述速度运行但性能密度较低的芯片则属于“灰色地带”，这意味着企业必须向美国政府通报对华销售的情况。

有分析称，新举措可能还包括英伟达的旗舰游戏显卡RTX4090。而最新消息显示，美国商务部对出口管制政策做出了澄清，该政策针对4090显卡的禁令是允许消费性应用进行出口豁免的。这意味着4090显卡仍可以在中国（包括香港和澳门）的消费市场进行零售，但不允许用于商业和生产用途。

新措施为了防止企业通过Chiplet的芯片堆叠技术绕过芯片限制，还将新规扩大到另外40多个国家出口先进的许可要求，以防止A100和H100系列等AI芯片从海外其他地区辗转出口到中国；另外，对中国以外的21个国家提出了芯片制造设备的许可要求，并扩大了禁止进入这些国家的设备清单，以限制中国14nm以下先进芯片的制造能力。

此次出口管制新规还增加了很多细分领域的物项清单，包括ASIC（应用型专用集成电路）、FPGA（现场可编程逻辑门阵列）、SRAM存算一体芯片、Chiplet、多重曝光技术、NPU（神经网络处理器）等，这些都在美国的管制范围内。

如果只限制峰值性能，芯片企业还可以针对中国市场推出性能功耗低的小体积产品，再通过高速连接的方式组成集群，最终实现预期中的集群性能。但芯片性能密度的条款把这条路给堵住了，这次新规将填补之前芯片限制的“漏洞”，将一些原本刚好符合之前技术参数的AI芯片纳入限制范围，同时阻止中国企业通过海外子公司购买美国AI芯片。

在管制芯片企业出口时，美国企业的业绩同样也会受到影响，中国市场长期是美国芯片企业在美国以外的最大市场。2022年，英伟达、英特尔、AMD三家主要数据中心芯片在中国大陆地区（含中国香港）营收占比分别为21.4%、27.2%、22.1%。

截屏2023-10-19 22.02.13.png

值得注意的是，中国台湾地区的企业，如华硕、技嘉、微星等，大量最终客户仍在中国大陆地区。如果按照中国大陆地区、中国台湾地区两个市场合计统计，英伟达、英特尔、AMD在中国市场的营收占比分别为，47.3%、40.3%、32.1%。

AI时代需求指数级增长

自2022年11月底以来，美国初创公司OpenAI发布的人工智能对话聊天机器人ChatGPT迅速走红，仅用5天注册用户数就超过百万，并在2个月内破亿，成为史上增长最快的消费类应用。

以ChatGPT为代表的AI大模型开启了新一轮生产力革新的科技浪潮，人与机器不再局限于简单的指令式交互，机器可以理解复杂的意图，这颠覆过去互联网发展中的许多业态，也对实体经济和产业发展产生深远的影响。因此，GPT被微软创始人比尔·盖茨评价为自图形界面以来最重要的技术进步，被英伟达创始人黄仁勋称作是人工智能领域的iPhone时刻。

当所有人都沉浸在对超大语言模型那令人惊叹的“生命力”的时候，AI这个存在了数十年的概念，已然成为未来几十年人类社会发展的核心变量。而AI的背后是、数据、算法的有机结合。

ChatGPT的爆火本质上是人类在AI领域软件（数据、算法）、硬件（）综合能力大幅提升以后的一次爆发式体现。随着云计算的广泛应用，特别是深度学习成为当前AI研究和运用的主流方式，AI对于算力的要求不断快速提升。

我们在谈AI芯片性能的时候，首先想到的一个指标就是算力。算力是算法和数据的基础设施，支撑着算法和数据，是指计算机系统能够完成的计算任务量，通常用来描述对数据的处理能力，采用FLOPS（Floating Point Operations Per Second）表示每秒钟能够完成的浮点运算或指令数。在AI发展的最初几十年里，所需的计算能力是按照摩尔定律增长的 —— 大约20个月的时间翻一倍。

1950年代，美国数学家Claude Shannon训练了一个名为Theseus的机器老鼠，使其能在迷宫中导航并记住路径，Theseus的构建是基于40FLOPS；2012年，由AlexNet（一个图像识别AI）标志着深度学习时代的开始，算力翻倍时间大大缩短到了六个月；2015年，AlphaGo的出现带来了大规模AI模型时代，它的计算需求比以前所有的AI系统都要大。

比于传统AI算法，大模型在参数规模上得到大幅提升，参数一般达到千亿甚至万亿规模。例如OpenAI的GPT系列，最开始的GPT-1拥有1.17亿个参数，到GPT-3的参数已经到达1750亿个，而相应的能力也得到大幅提升。

AI算法模型对于算力的巨大需求，推动了今天芯片业的发展。据OpenAI测算，2012年开始，全球AI训练所用的计算量呈现指数增长，平均每3.43个月便会翻一倍，目前计算量已扩大30万倍，远超算力增长速度。

一般的说，AI芯片被称为AI加速器或计算卡，即专门针对AI算法做了特殊加速设计的芯（其他非计算任务仍由CPU负责）；而从广义范畴上讲，面向AI计算应用的芯片都可以称为AI芯片。这让算力领域的硬件巨头们再一次走进人们的视线，CPU、、FPGA、ASIC等底层硬件中包含的算力价值将被重塑。

截屏2023-10-19 22.14.39.png

目前是AI算力的主要选择，因为GPU最初是为了图形渲染而设计的，而图形渲染涉及的计算是高度并行化的，这种并行化的特性使GPU非常适合进行机器学习和深度学习这样的大规模数据并行计算。GPU的并行计算能力可大幅提升计算效率，可大幅缩短AI算法的训练和推理时间，成为AI时代的算力核心。

并且渲染过程具体来说就是几何点位置和颜色的计算，这两者的计算在数学上都是用四维向量和变换矩阵的乘法，所以GPU超过80%部分为运算单元，具有例如张量核心和矩阵乘法等计算单元，相比较下，CPU仅有20%为运算单元。因此GPU可以更快地执行常见的机器学习和深度学习操作：如卷积和矩阵乘法。这些计算单元与通用计算单元相比，具有更高的效率和更快的速度。

在进行深度学习等计算时，还需要大量的内存和高速的内存带宽来存储和处理海量数据。GPU相比于其他硬件（如CPU），具有更高的内存带宽和更大的内存容量，可以更有效地存储和处理数据，从而提高计算速度。

现阶段，随着例如英伟达A100、H100等型号产品的发布，GPU在算力方面的优势相较于其他硬件具有较大优势。GPU的工作也从一开始的图形处理逐步转化为计算，在深度学习的训练阶段其性能更是无所匹敌，成为最适合支撑AI训练和学习的硬件，应用于数据中心加速和部分智能终端领域。

据JPR统计，2023年一季度英伟达GPU市占率达84%，是GPU市场的主导者。英伟达1999年首次提出GPU概念，2006年推出CUDA运算平台，2023年5月发布超级计算机DGXGH200，其算力规模达到1Eflops，支持万亿参数AI大模型训练，为巨型人工智能模型提供线性可扩展性。英伟达基于其GPU与CUDA等生态体系的构建，已成为AI算力关键供应商。

· 至于CPU，由于GPU无法单独工作，必须由CPU进行控制调用才能工作。CPU也可单独作为AI芯片使用，处理复杂的逻辑运算和不同的数据类型，虽然兼容性好但比较浪费，当需要大量的处理类型统一的数据时，可调用GPU进行并行计算。

· 而FPGA具有低能耗、高性能以及可编程等特性，相对于CPU与GPU有明显的性能或者能耗优势，但对使用者要求高。通过FPGA可以有效降低研发调试成本，提高市场响应能力，推出差异化产品，科技巨头纷纷布局云计算+FPGA的平台。随着FPGA的开发者生态逐渐丰富，适用的编程语言增加，FPGA运用会更加广泛。

· ASIC可以更有针对性地进行硬件层次的优化，从而获得更好的性能、功耗比。但是ASIC芯片的设计和制造需要大量的资金、较长的研发周期和工程周期，而且深度学习算法仍在快速发展，若深度学习算法发生大的变化，FPGA能很快改变架构，适应最新的变化，ASIC类芯片一旦定制则难于进行修改。

· AI芯片还可以用NPU，近年来NPU异军突起，同样的芯片面积下，NPU能够做到几十倍于GPU的AI性能。英伟达也在近几代的GPU中塞了不少Tensor Core，但如果使用NPU的话，可以并不完全依赖英伟达的CUDA生态，所以英特尔、AMD乃至中国的很多企业都分了一杯羹。

论性能，华为的NPU在AI性能上已经不逊色于英伟达的产品，目前缺的就是“生态”。只有参与的开发者够多，生态才能建立，但是转型都是存在“阵痛的”，意味着大量代码的重构。

总的来看，目前GPU是市场上用于AI计算最成熟应用最广泛的通用型芯片，短期将延续AI芯片的领导地位。在算法技术和应用层次尚浅时期，其强大的计算能力、较低的研发成本和通用性将继续占领AI芯片的主要市场份额。