为 AI 处理器集群供电

发布时间:2022-03-01  

最近,基于 AI ASIC 处理器的新型集群超级计算机的引入,将电源传输网络的边界提高到了几年前从未想象过的水平。随着电流水平接近 100kA/ASIC 集群的应用,需要在电力系统架构、拓扑、控制系统和封装方面进行创新,以供应如此高的电流需求。由于功率水平不断提高,采用 48V 电源总线进行功率传输至关重要。此外,日益紧凑的处理器集群应用限制了电源方案在处理器旁横向摆放的可行性,因此需要一种来解决问题。

Vicor 48V 直接至负载(<1V)与常见的 48V 中间总线架构(IBA)不同,IBA 还是传统的由一个中间母线转换器和多相 PoL 稳压器组成,而 FPA 则通过创新解决方案独特地解决了集群处理器系统面临的每一个电源传输难题,它还支持电源方案在处理器对应面垂直摆放的方式,这种对于向此类集群系统提供高电流至关重要。

集群式电源传输的挑战

集群式 ASIC 系统采用紧密封装,以达到所需的高速带宽,从而实现 AI 训练工作负载(如自动驾驶)所需的万亿次处理性能。集群中的每个处理器本身可能需要 600 到 1000 安培的电流,所以即使是单个处理器加速卡上边,如果电源方案的摆放位置不接近处理器的电源引脚,也会带来严重的 PCB 或基板阻抗损失,从而带来电源传输功率损耗的挑战。

最近,基于 AI ASIC 处理器的新型集群超级计算机的引入,将电源传输网络的边界提高到了几年前从未想象过的水平。随着电流水平接近 100kA/ASIC 集群的应用,需要在电力系统架构、拓扑、控制系统和封装方面进行创新,以供应如此高的电流需求。由于功率水平不断提高,采用 48V 电源总线进行功率传输至关重要。此外,日益紧凑的处理器集群应用限制了电源方案在处理器旁横向摆放的可行性,因此需要一种来解决问题。

Vicor 48V 直接至负载(<1V)与常见的 48V 中间总线架构(IBA)不同,IBA 还是传统的由一个中间母线转换器和多相 PoL 稳压器组成,而 FPA 则通过创新解决方案独特地解决了集群处理器系统面临的每一个电源传输难题,它还支持电源方案在处理器对应面垂直摆放的方式,这种对于向此类集群系统提供高电流至关重要。

集群式电源传输的挑战

集群式 ASIC 系统采用紧密封装,以达到所需的高速带宽,从而实现 AI 训练工作负载(如自动驾驶)所需的万亿次处理性能。集群中的每个处理器本身可能需要 600 到 1000 安培的电流,所以即使是单个处理器加速卡上边,如果电源方案的摆放位置不接近处理器的电源引脚,也会带来严重的 PCB 或基板阻抗损失,从而带来电源传输功率损耗的挑战。

广告

此外,GPU 和专门的 AI 处理器已经采用 7nm、5nm 工艺制程,很快将使用 3nm 硅工艺节点,从而实现人工智能(AI)的快速发展。这些工艺节点的标称核心工作电压目前在 0.75 至 0.85V 之间。为了达到 AI 要求的工作性能,需要把 GPU 和处理器先安放在加速卡上,然后将加速卡群集到基于服务器机架的系统中,数据中心和高性能计算机的每个机架上有 4 或 8 个加速卡。然而,最近来自 Cerebras 和特斯拉(Tesla)的介绍显示了另一种将人工智能 ASIC 本身进行集群的方法,这种方法可以生成极大算力、极高功率密度的超级计算机,但同时也带来了对电源传输方面的严峻考验和对热管理/冷却方面的挑战。

对于电源传输来说,ASIC/GPU 集群已经没有单处理器或双处理器 AI 卡那样的横向电源传输空间,其所使用的高速 I/O 信号对大电流开关噪声(即硬开关多相降压(buck)稳压器工作时产生的噪声)极为敏感。所以将硬开关多相电源方案移动到更靠近处理器的位置会带来更多的电流开关噪声,这种情况下,电源方案设计既要满足噪声敏感 I/O 信号的要求,又要尽量降低 PDN 值就是一个巨大的挑战。在 40–60A/ 相的典型设计值下,给每个AI ASIC 或 GPU 提供高峰值电流(很多情况下每个 AISC 电流需求大于1500A)所需的多相电源方案数量很容易超过 30 相,在这种应用场景下,传统的横向电源(多相 buck 方案)几乎是难以实现的。

分比式电源解锁电流传输新方式

的基本原理是将电源转换器分为两个主要功能,分别对每个功能进行优化,然后将这些功能作为一个系统来实现。这两个功能分别是稳压和电流倍增。

稳压

稳压器的效率与所做的工作成反比——工作越多,效率越低。稳压器的输入电压和输出电压越接近,执行的工作就越少,效率就越高。凭借分比式架构在系统中的位置优化,可以使稳压器的输入至输出电压差最小化。采用零电压开关(ZVS)升降压(buck-boost)拓扑结构,在输入和输出电压差较小的情况下具有高效率。ZVS 大大降低了开关损耗,实现了高频操作,大大减小了转换器的尺寸。PRM 通常将 40 至 60V 的输入电压调节为 30 至 50V 的输出电压。

软开关与电流倍增

PRM 之后是第二级,执行电压降压和电流提升功能。这是使用正弦振幅(SAC™)拓扑结构的 模块来实现的。VTM 的特性可以看作是一个理想的变压器,其输入和输出电压通过一个固定比率关联,且在超过1MHz 工作频率时还能保持很低的阻抗(数百 µΩ) 。

由于 VTM 中没有储能装置,所以只要保持足够的冷却,它就可以提供足够大的能量。这使得 VTM 的功率容量与处理器的热容量相匹配。

SAC 拓扑使用零电压和零电流开关控制系统,这进一步降低开关噪声和功率损耗。

图 1:PRM™ 和 VTM™ 是 FPA 的组成部分。PRM 根据系统输入电压范围和功率要求选择;VTM 根据输出电压范围和电流要求选择。PRM 可安装在系统中任何方便摆放的位置;VTM 应安装在尽可能靠近处理器核心的位置。

PRM 和 VTM 一起构成 FPA 的功能模块:一个专门用于稳压,另一个专门用于电压转换和电流倍增。

SM-ChiP 封装降低噪声改善散热性能

虽然用于实现高性能稳压器的拓扑结构和架构很重要,但封装技术同样重要。Vicor SM-ChiP™  封装将所有无源器件、磁性器件、MOSFET 和控制器集成到一个模块中。此外,该封装设计能够在有效地供应大电流的同时,以最低的热阻抗便于模块冷却。许多 SM-ChiP 器件外表面的大部分地方都有接地金属屏蔽。这不仅有助于冷却,还可以屏蔽高频寄生电流噪声,防止其在器件外部传播。

垂直电源传输方式可将 PDN 损耗降低 95%

对于大型的,集群处理器阵列采用传统的横向电源传输方式几乎是不可能的。集群处理器电源的最好解决方案是。在 VPD 中,电流倍增器直接位于主板另一侧的处理器下方,通过缩短电流通过主板的距离,显著降低了 PDN 损耗。VPD 需要两个关键特性来实现此功能。

图 2:垂直电源传输方案 GTM™ 搭配电流倍增器置于处理器下方,最大限度地提高电源传输性能。垂直电源传输(VPD)解决方案还为包括更高 I/O 路由、板载内存或更紧密的处理器集群在内的方案设计大大减少了外围器件应用数量。

首先,垂直电源方案(VPD)应该在处理器的正下方区域,那里包含了很多高频电容器,它们是将特高频电流(>10MHz)与系统其余部分解耦所必需的。其次,为了获得最大效率, VPD 解决方案的电流输出位置和样式必须跟处理器上的电流输入位置和样式镜像一致,这样才能够实现真正的大电流“垂直”供电。

为了实现这些功能,Vicor  VPD 解决方案是一个由三层组成的集成模块:下层是一个 Gearbox,中间层是 VTM™ 电流倍增器阵列,上层是 PRM™ 稳压器,这样的三层组成了一个完整的 VPD 解决方案,我们称之为 DCM™。Gearbox 执行两个功能:一是包含高频去耦电容,二是把来自 VTM 的电流重新分配形成与上面的处理器镜像一致的模式。VTM 阵列的大小取决于处理器输入电流要求,PRM 的大小取决于总的功率需求。如果 GPU 或 ASIC 需要多个电源轨,则 VTM 层和 PRM 层可以分别使用独立的 PRM 和 VTM 来实现,其大小可以满足每个特定轨的电流和电压要求。

图 3: 是针对 ASIC 集群的在一个先进封装中实现的完整 48V 至负载 VPD 解决方案。PRM™、VTM™ 和模块的 gearbox 层提供稳压、电流倍增、去耦电容和引脚到引脚的封装匹配。

Vicor FPA™ 架构、ZVS 和 ZCS 控制系统、高频 SAC™ 电流倍增器拓扑与 SM-ChiP™ 封装技术提供了完善 VPD 的所有要素。它解决了低噪声、集群式电源传输的难题,同时以高效率和热适应能力强的电源模块封装简化了冷却和热管理机械设计。VPD 解决方案允许处理器通过集群进行高速海量数据分析,从而完善训练模型,并将机器学习提升到显著更高的水平,从而成为高性能 AI  系统的真正推动者。

获得高性能计算能力的更好方法

AI 和机器学习正处于成长的初级阶段,这列火车只会随着岁月的流逝而加速。这种加速需要更快地处理更复杂数据的解决方案。基于 AI ASIC 处理器的新一代超级计算机将比传统超级计算机需要更大的功率。一种新的、创新的电源传输方案是 AI 实现承诺的唯一途径。它需要电源系统架构、拓扑、控制系统和封装协同工作,以满足不断增加的高电流需求,利用电流倍增器的垂直供电方案是首选的解决方案。它是一种经过验证的成熟方案,可以满足当今对高性能计算的需求,并且可以轻松扩展以跟上未来的需求。它结构紧凑、效率高,可以将 PDN 功率损失降低 50% 以上。

作者简介:

Paul Yeaman 与行业中的技术领导者广泛合作,开发和实施了系统中领先的电源解决方案,这些解决方案满足行业中最严苛的电源需求。由于经常接触新技术带来的电源挑战,Paul 了解电源行业的广泛趋势,并致力于确保创新者能够整合电源解决方案以满足这些需求。Paul 在电力电子行业的设计和应用工程领域有 20 多年的经验。

Pual Yeaman 

Vicor应用工程高级总监

关于 Vicor

Vicor 公司是高性能电源模块的领先企业,始终致力于为客户解决最棘手的电源难题,帮助他们创新并最大化系统性能。我们简单易用的电源模块提供极高的密度和效率,支持从电源到负载点的高级供电网络。Vicor 总部位于美国马萨诸塞州安多弗,主要为全球客户提供无与伦比的电源转换与供电技术。www.vicorpower.cn

责编:Johnson Zhang

此外,GPU 和专门的 AI 处理器已经采用 7nm、5nm 工艺制程,很快将使用 3nm 硅工艺节点,从而实现人工智能(AI)的快速发展。这些工艺节点的标称核心工作电压目前在 0.75 至 0.85V 之间。为了达到 AI 要求的工作性能,需要把 GPU 和处理器先安放在加速卡上,然后将加速卡群集到基于服务器机架的系统中,数据中心和高性能计算机的每个机架上有 4 或 8 个加速卡。然而,最近来自 Cerebras 和特斯拉(Tesla)的介绍显示了另一种将人工智能 ASIC 本身进行集群的方法,这种方法可以生成极大算力、极高功率密度的超级计算机,但同时也带来了对电源传输方面的严峻考验和对热管理/冷却方面的挑战。

对于电源传输来说,ASIC/GPU 集群已经没有单处理器或双处理器 AI 卡那样的横向电源传输空间,其所使用的高速 I/O 信号对大电流开关噪声(即硬开关多相降压(buck)稳压器工作时产生的噪声)极为敏感。所以将硬开关多相电源方案移动到更靠近处理器的位置会带来更多的电流开关噪声,这种情况下,电源方案设计既要满足噪声敏感 I/O 信号的要求,又要尽量降低 PDN 值就是一个巨大的挑战。在 40–60A/ 相的典型设计值下,给每个AI ASIC 或 GPU 提供高峰值电流(很多情况下每个 AISC 电流需求大于1500A)所需的多相电源方案数量很容易超过 30 相,在这种应用场景下,传统的横向电源(多相 buck 方案)几乎是难以实现的。

分比式电源解锁电流传输新方式

的基本原理是将电源转换器分为两个主要功能,分别对每个功能进行优化,然后将这些功能作为一个系统来实现。这两个功能分别是稳压和电流倍增。

稳压

稳压器的效率与所做的工作成反比——工作越多,效率越低。稳压器的输入电压和输出电压越接近,执行的工作就越少,效率就越高。凭借分比式架构在系统中的位置优化,可以使稳压器的输入至输出电压差最小化。采用零电压开关(ZVS)升降压(buck-boost)拓扑结构,在输入和输出电压差较小的情况下具有高效率。ZVS 大大降低了开关损耗,实现了高频操作,大大减小了转换器的尺寸。PRM 通常将 40 至 60V 的输入电压调节为 30 至 50V 的输出电压。

软开关与电流倍增

PRM 之后是第二级,执行电压降压和电流提升功能。这是使用正弦振幅(SAC™)拓扑结构的 模块来实现的。VTM 的特性可以看作是一个理想的变压器,其输入和输出电压通过一个固定比率关联,且在超过1MHz 工作频率时还能保持很低的阻抗(数百 µΩ) 。

由于 VTM 中没有储能装置,所以只要保持足够的冷却,它就可以提供足够大的能量。这使得 VTM 的功率容量与处理器的热容量相匹配。

SAC 拓扑使用零电压和零电流开关控制系统,这进一步降低开关噪声和功率损耗。

图 1:PRM™ 和 VTM™ 是 FPA 的组成部分。PRM 根据系统输入电压范围和功率要求选择;VTM 根据输出电压范围和电流要求选择。PRM 可安装在系统中任何方便摆放的位置;VTM 应安装在尽可能靠近处理器核心的位置。

PRM 和 VTM 一起构成 FPA 的功能模块:一个专门用于稳压,另一个专门用于电压转换和电流倍增。

SM-ChiP 封装降低噪声改善散热性能

虽然用于实现高性能稳压器的拓扑结构和架构很重要,但封装技术同样重要。Vicor SM-ChiP™  封装将所有无源器件、磁性器件、MOSFET 和控制器集成到一个模块中。此外,该封装设计能够在有效地供应大电流的同时,以最低的热阻抗便于模块冷却。许多 SM-ChiP 器件外表面的大部分地方都有接地金属屏蔽。这不仅有助于冷却,还可以屏蔽高频寄生电流噪声,防止其在器件外部传播。

垂直电源传输方式可将 PDN 损耗降低 95%

对于大型的,集群处理器阵列采用传统的横向电源传输方式几乎是不可能的。集群处理器电源的最好解决方案是。在 VPD 中,电流倍增器直接位于主板另一侧的处理器下方,通过缩短电流通过主板的距离,显著降低了 PDN 损耗。VPD 需要两个关键特性来实现此功能。

图 2:垂直电源传输方案 GTM™ 搭配电流倍增器置于处理器下方,最大限度地提高电源传输性能。垂直电源传输(VPD)解决方案还为包括更高 I/O 路由、板载内存或更紧密的处理器集群在内的方案设计大大减少了外围器件应用数量。

首先,垂直电源方案(VPD)应该在处理器的正下方区域,那里包含了很多高频电容器,它们是将特高频电流(>10MHz)与系统其余部分解耦所必需的。其次,为了获得最大效率, VPD 解决方案的电流输出位置和样式必须跟处理器上的电流输入位置和样式镜像一致,这样才能够实现真正的大电流“垂直”供电。

为了实现这些功能,Vicor  VPD 解决方案是一个由三层组成的集成模块:下层是一个 Gearbox,中间层是 VTM™ 电流倍增器阵列,上层是 PRM™ 稳压器,这样的三层组成了一个完整的 VPD 解决方案,我们称之为 DCM™。Gearbox 执行两个功能:一是包含高频去耦电容,二是把来自 VTM 的电流重新分配形成与上面的处理器镜像一致的模式。VTM 阵列的大小取决于处理器输入电流要求,PRM 的大小取决于总的功率需求。如果 GPU 或 ASIC 需要多个电源轨,则 VTM 层和 PRM 层可以分别使用独立的 PRM 和 VTM 来实现,其大小可以满足每个特定轨的电流和电压要求。

图 3: 是针对 ASIC 集群的在一个先进封装中实现的完整 48V 至负载 VPD 解决方案。PRM™、VTM™ 和模块的 gearbox 层提供稳压、电流倍增、去耦电容和引脚到引脚的封装匹配。

Vicor FPA™ 架构、ZVS 和 ZCS 控制系统、高频 SAC™ 电流倍增器拓扑与 SM-ChiP™ 封装技术提供了完善 VPD 的所有要素。它解决了低噪声、集群式电源传输的难题,同时以高效率和热适应能力强的电源模块封装简化了冷却和热管理机械设计。VPD 解决方案允许处理器通过集群进行高速海量数据分析,从而完善训练模型,并将机器学习提升到显著更高的水平,从而成为高性能 AI  系统的真正推动者。

获得高性能计算能力的更好方法

AI 和机器学习正处于成长的初级阶段,这列火车只会随着岁月的流逝而加速。这种加速需要更快地处理更复杂数据的解决方案。基于 AI ASIC 处理器的新一代超级计算机将比传统超级计算机需要更大的功率。一种新的、创新的电源传输方案是 AI 实现承诺的唯一途径。它需要电源系统架构、拓扑、控制系统和封装协同工作,以满足不断增加的高电流需求,利用电流倍增器的垂直供电方案是首选的解决方案。它是一种经过验证的成熟方案,可以满足当今对高性能计算的需求,并且可以轻松扩展以跟上未来的需求。它结构紧凑、效率高,可以将 PDN 功率损失降低 50% 以上。

作者简介:

Paul Yeaman 与行业中的技术领导者广泛合作,开发和实施了系统中领先的电源解决方案,这些解决方案满足行业中最严苛的电源需求。由于经常接触新技术带来的电源挑战,Paul 了解电源行业的广泛趋势,并致力于确保创新者能够整合电源解决方案以满足这些需求。Paul 在电力电子行业的设计和应用工程领域有 20 多年的经验。

Pual Yeaman 

Vicor应用工程高级总监

关于 Vicor

Vicor 公司是高性能电源模块的领先企业,始终致力于为客户解决最棘手的电源难题,帮助他们创新并最大化系统性能。我们简单易用的电源模块提供极高的密度和效率,支持从电源到负载点的高级供电网络。Vicor 总部位于美国马萨诸塞州安多弗,主要为全球客户提供无与伦比的电源转换与供电技术。www.vicorpower.cn

责编:Johnson Zhang

文章来源于:电子工程专辑    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    联系在一起的物联网平台已经拥有超过5000万的连接设备,集中管理这些产品的米家APP目前已经拥有500万的日活用户。 据悉,小米生态链目前已经涵盖数百件智能硬件设备,作为最成功的硬件孵化器,小米......
    ZDS5054D智能硬件分析型示波器的功能特点;ZDS5054D示波器标配40多种协议解码,同时支持IIC、SPI、IIS等多种通信协议时序分析,可以运用于手机、智能穿戴、家电等嵌入式智能硬件设备......
    iPhone 设计的苹果前设计总监乔尼·艾维 (Jony Ive) 和 OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman) 正在打造一款专用的 AI 硬件设备,以及“一种......
    式服务和开发工具的能力。未来,依托全面的能力体系架构,移远云将助力通用设备、商用设备、户外出行、智能家居等应用行业的客户产品快速实现智能化。QuecThing OS加持,硬件开发轻松、高效智能硬件......
    流程图 5.2 机智云平台 机智云平台是机智云物联网公司多年积累和对物联网行业深刻理解的结晶,为个人和企业开发者提供的一站式智能硬件开发及云服务平台。该平台涵盖了产品定义、设备端开发调试、应用......
    中国IoT设备在出海过程中,面临"网络碎片化、产业链条长、规模部署难、维护成本高"等挑战,途鸽科技创新推出端到端全球一站式eSIM物联网解决方案,助力中国IoT和智能硬件企业把握风口扬帆出海,快速实现设备......
    行业正从传统SIM向eSIM演进。针对中国IoT设备在出海过程中,面临"网络碎片化、产业链条长、规模部署难、维护成本高"等挑战,途鸽科技创新推出端到端全球一站式eSIM物联网解决方案,助力中国IoT和智能硬件......
    的解耦与互联互通超连接能力。” 深圳市智慧湾科技有限公司CEO蔡锦江 智慧湾织综物联网服务架构软件的技术特点 1)快速接入 基于生态开放系统设计思想,实现物联网硬件设备和平台软件解耦;支持物联网智能设备......
    ”一站式服务和开发工具的能力。未来,依托全面的能力体系架构,移远云将助力通用设备、商用设备、户外出行、智能家居等应用行业的客户产品快速实现智能化。 QuecThing OS加持,硬件开发轻松、高效 智能硬件......
    AI在可穿戴领域狂飙,混合式AI模式加速落地;随着技术的发展,硬件升级为智能硬件,增加了CPU、操作系统,还增加了联网、健康监测等功能。AI技术的应用,又让智能硬件的普通AI升级为生成式AI。当下......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>