芯片制造商正在利用演进和革命性技术,以相同或更低的功耗实现性能的数量级提高,这标志着从制造驱动设计到半导体架构师驱动设计的根本转变。
本文引用地址:过去,大多数芯片都包含一到两项前沿技术,主要是为了跟上每隔几年每个新工艺节点的光刻技术的预期改进。这些改进是基于行业路线图,该路线图要求随着时间的推移取得可预测但不显著的收益。现在,随着大型语言模型和更多传感器推动的数据爆炸式增长,以及设计自己芯片的系统公司之间的竞争加剧,以及涉及人工智能的国际竞争日益激烈,芯片设计前沿的规则正在发生相当大的变化。现在,渐进式改进与处理性能的巨大飞跃相结合,虽然这些改进使计算能力和分析达到了一个全新的水平,但它们也需要一套全新的权衡。
这些转变的核心是高度定制的,其中一些涉及在最先进的工艺节点开发的小芯片。并行处理几乎是必然的,针对特定数据类型和操作的加速器也是如此。在某些情况下,这些微型系统不会进行商业销售,因为它们为数据中心提供了竞争优势。但它们也可能包括其他商用技术,例如处理核心、加速器、用于减少延迟的内存、近内存计算技术,以及不同的缓存方案、共同封装的光学器件和更快的互连。其中许多进展多年来一直处于研究或搁置状态,现在正在全面部署。
谷歌研究院工程研究员兼机器学习系统副总裁 Amin Vahdat 在最近的 Hot Chips 2023 会议上的演讲中指出,今天的芯片可以解决十年前无法想象的问题,而机器学习将承担「越来越多的任务」。
「我们需要改变对系统设计的看法,」Vahdat 说。「过去五、六、七年中计算需求的增长令人震惊...... 虽然在算法稀疏性方面出现了许多创新,但当您查看图 1 时,它显示了 10 倍每个模型的参数数量持续一年。我们还知道,计算成本随着参数数量的增加而超线性增长。因此,我们为应对这一挑战而必须构建的计算基础设施类型必须改变。值得注意的是,如果我们试图在通用计算上做到这一点,我们就不会达到今天的水平。我们在过去 50 或 60 年间开发的传统计算智慧已被抛弃。」
图 1:机器学习计算的需求增长。来源:Google 研究/Hot Chips 2023
然而,这并不意味着老问题消失了。功耗和散热一直是设计团队头疼的问题,并且随着处理速度和数量的增加,它们变得更加难以解决。在大约 3GHz 之后,由于热密度更高且芯片无法散发热量,仅仅调高时钟频率就不再是一个简单的选择。虽然稀疏数据模型和软硬件协同设计解决了在各种处理元件上运行的软件的效率,以及每个计算周期处理更多数据的能力,但不再需要转动一个旋钮来提高每瓦性能。
内存创新
然而,有许多小型和中型旋钮,其中一些从未在生产系统中使用过,因为没有经济原因这样做。随着数据的增加和架构创新的转变,这些经济学发生了巨大的变化,这一点在今年的 Hot Chips 会议上显而易见。
其中的选项包括内存/近内存处理,以及更接近数据源的处理。这里的问题是,移动大量数据需要大量的系统资源——带宽、电力和时间——这对计算有直接的经济影响。一般来说,收集和处理的大部分数据都是无用的。例如,汽车或安全系统中的视频输入中的相关数据可能仅持续一两秒,而可能需要数小时的数据进行整理。对靠近源头的数据进行预处理,并使用人工智能来识别感兴趣的数据,意味着只需发送一小部分数据进行进一步处理和存储。
三星首席工程师 Jin Hyun Kim 表示:「大部分能源消耗来自移动数据。」他指出了三种提高效率和提升绩效的解决方案:
使用 HBM 进行内存处理,实现极高的带宽和功耗;
使用 LPDDR 对需要高容量的低功耗设备进行内存处理;
使用 CXL 进行近内存处理,以适中的成本实现极高的容量。
图 2:移动数据的资源成本。来源:三星/Hot Chips 2023
内存处理已经在绘图板上酝酿了很多年,直到最近才出现太大进展。大型语言模型已经极大地改变了经济学,现在它变得更加有趣,大型内存供应商也没有忽视这一点。
这一概念的新改进是内存加速,这对于 AI/ML 的乘法累加 (MAC) 函数特别有用,因为需要快速处理的数据量呈爆炸式增长。使用生成式预训练 Transformer 3 (GPT-3) 和 GPT4,仅加载数据就需要大量带宽。与此相关的挑战有很多,包括如何有效地做到这一点,同时最大限度地提高性能和吞吐量,如何扩展它以处理大型语言模型中参数数量的快速增加,以及如何建立灵活性以适应未来的变化。
SK hynix America 高级技术传感经理 Yonkwee Kwon 在 Hot Chips 2023 上的演讲中表示:「我们一开始的想法是将内存作为加速器。第一个目标是实现高效扩展。但拥有高性能也很重要。最后,我们设计的系统架构易于编程,同时最大限度地减少系统结构开销,但仍然允许软件堆栈实现灵活性。」
图 3:MAC 和激活操作可以在所有库中并行执行,权重矩阵数据来自库,矢量数据来自全局缓冲区。MAC 和激活函数结果分别存储在名为 MAC_REG 和 AF_REG 的锁存器中。来源:SK 海力士/Hot Chips 2023
CPU 改进
虽然内存的变化有助于减少需要移动的数据量,但这只是难题的一小部分。下一个挑战是加快主要处理元素的速度。做到这一点的一种方法是分支预测,它基本上预测下一个操作将是什么——几乎就像互联网搜索引擎的方式一样。然而,与任何并行架构一样,关键是保持各种处理元素充分运行,没有空闲时间,以最大限度地提高性能和效率。
Arm 通过其 Neoverse V2 设计对这一概念进行了新的改造,将分支与获取分离。其结果是通过最大限度地减少停顿来提高效率,并从错误预测中更快地恢复。Arm 首席 CPU 架构师 Magnus Bruce 表示:「动态馈送机制允许内核调节攻击性,并主动防止系统拥塞。这些基本概念使我们能够推动机器的宽度和深度,同时保持较短的管道以快速恢复错误预测。」
图 4:Neoverse V2 核心的流程示意图。来源:Arm/Hot Chips 2023
这里的不同之处在于,整个系统的改进来自于架构在多个点的调整,而不是大规模的改变。例如,拆分分支预测器和获取可以将分支目标缓冲区拆分为两个级别,使其能够处理多 50% 的条目。它还将预测器中存储的历史记录增加了三倍,并将获取队列中的条目数量增加了一倍,从而显著提高了实际性能。为了使其有效,该架构还将 L2 缓存加倍,从而将使用过的数据块预测和使用过的多次数据块预测分开。综合各种改进,Neoverse V2 的性能是 V1 的两倍,具体取决于它在系统中扮演的角色。
与此同时,AMD 的下一代 Zen 4 核心由于微架构的改进,每周期指令数增加了约 14%,由于工艺扩展,在相同电压下 5nm 下的频率提高了 16%,由于微架构和技术的改进,功耗降低了约 60%。
与 Arm 一样,AMD 也致力于改进分支预测和获取。AMD 研究员兼 Zen 4 首席架构师 Kai Troester 表示,由于更多的分支、每个周期更多的分支预测以及允许更多条目和每个条目更多操作的更大操作缓存,分支预测准确性得到了提高。它还添加了 3D V 高速缓存,将每个内核的 L3 高速缓存提升至高达 96 MB,并在 256 位数据路径上使用两个连续周期提供对 512 位操作的支持。简而言之,该设计增加了数据管道的大小,并尽可能缩短数据必须传输的距离。
图 5:Zen 4 的两种实现,包括每个芯片的计算核心数量是两倍的 Zen 4c 以及分区的 L3 缓存。来源:AMD/2023 年热门芯片
平台架构系统
方面的主要趋势之一是不断增加的领域专用性,这对开发适用于所有应用程序的通用处理器的旧模式造成了严重破坏。现在的挑战是如何提供本质上的大规模定制,有两种主要方法:通过硬件或可编程逻辑添加可编程性,以及开发可互换部件的平台。
英特尔推出了一个将小芯片集成到先进封装中的框架,该封装利用其嵌入式多芯片互连桥来连接高速 I/O、处理器内核和内存。英特尔的目标是提供足够的定制和性能来满足客户的需求,但交付这些系统的速度比完全定制的架构要快得多,并且结果可预测。
「这将是一个多,」英特尔院士兼首席至强架构师 Chris Gianos 说道。「我们可以使用这些小芯片构建结构,具有很大的灵活性。它们都只是互操作,它为我们提供了专门优化产品核心的维度之一。我们将创建 E 核(超高效)的小芯片和 P 核(高性能)的小芯片。」
英特尔还创建了一个模块化网状结构来将各种组件连接在一起,以及一个支持 DDR 或 MCR 内存以及通过 CXL 连接的内存的通用控制器。
图 6:英特尔的可定制小。橙色框代表内存通道。来源:英特尔/Hot Chips 2023
神经处理器、光学互连
即使对于 Hot Chips 会议来说,新方法和新技术的清单也是前所未有的。它表明业界正在多么广泛地寻找增加功率和降低功率的新方法,同时仍然关注面积和成本。PPAC 仍然是焦点,但不同应用程序和用例的权衡可能非常不同。
IBM 研究员 Dharmendra Modha 表示:「人工智能的运营支出和资本支出正在变得不可持续。」他补充道,「架构胜过摩尔定律。」
对于 AI/ML 应用来说,精度也至关重要。IBM 的设计包括一个支持混合精度的向量矩阵乘法器,以及具有 FP16 精度的向量计算单元和激活函数单元。此外,处理是在距离内存几微米的范围内完成的。「不存在依赖于数据的条件分支,」他说。「没有缓存未命中、没有停顿、没有推测执行。」
图 7:IBM 的 North Pole 芯片,显示了相互交织的计算(红色)和内存(蓝色)。来源:IBM/Hot Chips 2023
复杂芯片的一个关键挑战不仅是在内存和处理器之间移动数据,而且还在于芯片周围的数据移动。片上网络和其他互连结构简化了这一过程。硅光子学已经使用了一段时间,特别是对于高速网络芯片,并且光子学在机架中的服务器之间发挥着作用。但是否或何时转移到芯片层面仍不确定。尽管如此,这一领域的工作仍在继续,根据芯片行业的大量采访,光子学受到了许多公司的关注。
Lightelligence 工程副总裁 Maurice Steinman 表示,他的公司已经开发出专门构建的基于光子学的加速器,其速度比 GPU 快 100 倍,而且功耗显著降低。该公司还开发了片上光学网络,更多的是使用硅中介层作为使用光子而不是电子连接小芯片的介质。
「纯电气解决方案面临的挑战是,随着距离的衰减,仅在最近的邻居之间进行通信确实变得切实可行,」斯坦曼说。「如果芯片左上角有一个结果需要与右下角通信,那么它需要遍历很多跳。这给负责分配资源的软件组件带来了问题,因为它需要考虑接下来的几个棋步以避免拥塞。」
图 8:片上光网络显示光子集成电路 (PIC)、电气集成电路 (EIC),使用平面栅格阵列 (LGA) 基板。来源:Lightelligence/Hot Chips 2023
可持续性、可靠性和未来
随着所有这些变化,另外两个问题也出现了。一是可持续性。随着更多的数据由更多的芯片处理,挑战甚至将集中在能源消耗上,更不用说减少碳足迹了。更多更高效的设备并不一定会消耗更少的电力,而且制造所有这些设备都需要能源。
一段时间以来,数据中心一直是人们关注的目标。十年前,普遍认同的统计数据是数据中心消耗了地球上所有发电量的 2% 到 3%。美国能源效率和可再生能源办公室表示,数据中心约占美国总用电量的 2%。这些数字并不总是准确的,因为绿色能源有多种,制造和回收太阳能电池板和风车叶片也需要能源。但很明显,消耗的能源量将随着数据的增长而继续增长,即使它没有以相同的速度跟踪。
Hot Chips 以及其他会议上的许多演讲都将可持续发展作为目标。尽管基础数据可能有所不同,但事实上,这是许多芯片制造商的企业强制要求,这一点意义重大。
第二个尚未解决的问题是可靠性。许多新芯片设计也比前几代芯片复杂几个数量级。过去,主要问题是基板上可以塞满多少晶体管以及如何避免芯片熔化。如今,数据路径和分区如此之多,散热只是众多因素之一。随着越来越多的数据被分区、处理、重新聚合和分析,结果的准确性和一致性可能更难以确定和保证,特别是当设备老化程度不同并以意想不到的方式交互时。
此外,谷歌研究院高级研究员兼高级副总裁 Jeff Dean 表示,模型正在从单一模态转变为多种模态(图像、文本、声音和视频),从密集模型转向稀疏模型。「动力、可持续性和可靠性确实很重要,」他说,并指出许多有关人工智能训练和 CO2 排放的数据都具有误导性。「如果你使用正确的数据,事情就不会那么可怕。」
结论
从纯粹的技术角度来看,芯片架构的功耗、性能和面积/成本进步与过去的进步截然不同。创新无处不在,路线图表明性能的持续提升、每次计算的能耗降低以及总拥有成本的降低。
多年来,人们一直猜测建筑师可以极大地改进 PPAC 方程。Hot Chips 2023 让我们一睹包含这些改进的实际实现,创新显然已经交给了架构师。现在最大的问题是接下来会发生什么,这项技术将如何应用,以及这些变化会带来哪些其他可能性。有了这种计算能力,似乎一切皆有可能。