对于如今热火朝天的人工智能而言,算力和算法是关键,但电源系统同样重要,其创新也会影响人工智能产业的发展。英飞凌科技大中华区电源与传感系统事业部应用管理经理董唯一表示,在两三年前,加速卡都是以PCI-E为主流,进行推理和预算,但在近一两年之内,随着AI的概念爆火,训练大模型成为主流之后,OAM的出货量爆增。
虽然人脑仅消耗 20-30 W 的功率,但AI芯片的耗电量巨大。英伟达的 DX1 GPU 超级计算机包含八个P100 GPU,每个 GPU算力达21.2 TeraFLOP,同时总功率达到 3200 W,并且还需要多个DX1并联才能形成有效的神经网络。
另外,英伟达OAM卡的尺寸不足半张A4纸,但是功率可以达到700W甚至更高,这就要求功率密度也呈指数级的增长,而支撑功率密度的就是电源技术。在此类GPU板卡上,DC-DC相关芯片用量将超过60颗,数量是服务器的CPU主板的1.5倍。“这些产品不仅占板面积很大,并且整个对于效率的影响,对于主芯片性能的影响都是极大的,如果AI芯片想发挥出最高的功效,周围的电源一定是非常重要的。”董唯一说道。“数据中心宕机也有可能是电源问题导致的。”
电源面临的挑战
对于服务器、5G等应用而言,处理器消耗的电力越来越大,电源设计也正在面临着多方面的挑战。首先,效率是一个最大的难题,不仅是因为能源成本不断上升,同时,随着损耗的增加,也要额外增加数据中心对于散热的投入,这将进一步增加运营成本和碳足迹。
另外,功率密度也是一个格外要注意的,由于数据中心的处理单元规模越来越大,需要缩减房地产成本也在上升,并且由于数据中心包含数百或数千个处理单元,因此单一面积实现更多的功能以及更高的功率密度,可以极大的节约占地成本,但越紧凑就意味着散热越难做。
因此,无论是效率还是功率密度,都会影响到热管理,散热也成为了基础设施设计的重大挑战之一。
AI的计算系统是复杂的负载,一方面随着半导体工艺技术的进步,处理器需要更严密的电压精度和更低的工作电压,设计人员在整个工作温度范围内都要考虑直流、交流和纹波变化。另外,由于处理器并不是一直在全力工作,因此负载分布会随时发生变化,需要考虑电源的瞬态性能。
英飞凌针对技术设施提供了完整且广泛的产品组合,包括数字控制器、功率级、集成电源管理 IC、负载点 (POL) 转换器、驱动器、电源模块和分立MOSFET。
董唯一表示:“从过去的控制器和MOSFET分立方案到后来的集成,到提供大功率的数字控制器和功率级,以及现在的模块和垂直供电方式,这都是为了满足AI应用带来的挑战。”
英飞凌推出新一代POL
英飞凌最近推出的新一代POL TDA388xx系列,正是为了满足电源设计的挑战所做出的努力。POL,即Point-of-Load(负载旁边的电源),一般我们会把负载点电源尽量靠近负载放置, 这么做可以最大限度地确保供电效率和准确性。
董唯一表示,最新的TDA388xx 12A和20A产品采用了单晶圆工艺,主打高性价比。但是在大电流应用中,还是会采用多晶圆方式。TDA38xxx系列采用了英飞凌久经考验的OptiMOS N沟道功率 MOSFET技术, 专为高性能应用而设计,并针对高开关频率进行了优化,可提供业界最佳的品质因数。可提高效率、功率密度和成本效益。
此外,在生产方面,英飞凌将选择灵活的生产策略,充分利用自身IDM优势,保证产品供给的时候有备用库存,从而应对市场整个的变化。2021年,英飞凌位于菲拉赫的300毫米薄晶圆功率半导体芯片工厂正式启动运营,2026年,其德国德累斯顿新工厂也将投产,这一系列扩产举措,为客户供货提供了有力保证。
另外,董唯一还强调,TDA388xx与市场主流产品封装引脚全兼容,这可以降低客户的供应链风险,在缺货时方便更换。
该系列产品的主要特点包括:支持宽压输出,可以满足所有的CPU、GPU,包括通信客户的ASIC主芯片的输入输出范围。其次,产品可变换频率,范围从600KHz到1MHz可调;第三,软启动时间最小可达一毫秒;第四,支持电压监控;第五,支持Power Good输出。
英飞凌的独门秘籍——FAST COT
TDA388xx 12 A和 20 A同步降压稳压器采用快速恒定导通时间(COT)控制模式来优化性能,这种方法可确保快速瞬态响应,能够最大程度地减少无源元件数量并节省电路板空间。
董唯一表示,Fast COT引擎作为英飞凌的独家技术,更符合服务器、AI、GPU、通信等客户的需求。
英飞凌科技大中华区电源与传感系统事业部高级主任工程师吴炼表示,FAST COT架构,不需要外围的参数调节,可实现快速的动态响应。并且带有内部的谐波补偿,不需要外部大电容,只需要陶瓷电容即可实现低纹波输出。
COT控制模式顾名思义,控制策略是固定开通时间,通过改变频率从而改变电压,检测电流的方式是检测下管的谷点电流,也就是输出电感锯齿波电流的谷点电流,从而改变。COT架构无需传统电压/电流模式DC/DC控制中的补偿网络,变换器的设计更加简单,因为元器件变得更少,也无需花费很多时间来调整补偿值。
英飞凌的FAST COT技术则是控制比较输出电压(VOUT) 至底电压(Floor Voltage)与内部斜坡信号相结合。当 VOUT 降至该信号以下时,PWM 信号启动以开启高侧 FET 一段固定的导通时间。底电压由内部产生补偿误差放大器,将 VOUT 与参考电压进行比较。与传统COT相比控制,快速 COT 控制显着改善输出电压调节。
如图所示,英飞凌专有的FAST COT技术具有多种优势。
Fast COT所具有的优势详解,包括更少的外部元件,可选择的软启动时间,闩锁开闭,FCCM等等
Fast COT技术的原理,通过三个generator,包括Floor,Ramp以及Adaptive,从而实现更快速更精准的反馈与控制调节。
总结
虽然人工智能时代才刚开始,但短短几年间,算力增长及算法革新都在火热的进行中,计算架构的变革,使以CPU为核心的解决方案迁移到CPU与GPU或TPU的组合中,这种异构计算对服务器电源系统的设计也带来了新的、更严格的要求。对于更高性能,更高功率,更高效率的追求,需要更创新的功率系统来配合。
另外,对于存储、路由器、交换机和电信基站等市场,同样由于人工智能等技术的发展,对系统的性能和尺寸提出了更高的要求。
英飞凌TDA388xx正是基于行业客户的强烈需求所开发的新一代POL,通过提升集成度,效率,功率密度,保护等特性,以及支持FAST COT等技术,使产品更加简单易用,适用于要求越来越严苛的功率系统环境中。