掌握AI技术对经济、社会、能源、军事和地缘政治格局的影响日益突出。在企业、政府和个人机构中广泛应用先进的AI技术不仅具有战略意义,而且势在必行。
尽管在过去七十年里,许多关于AI的研究大多未能取得预期的成功,但是AI技术在近十年来取得了显著进步,其发展速度呈指数级增长。AI的快速发展得益于向高度并行计算架构的转变,这与传统的基于中央处理器(CPU)的系统不同。由于顺序处理特性,传统CPU一次只能处理一条指令,越来越无法满足高级、高度并行的AI算法需求,例如大型语言模型(LLM)。这一挑战推动了AI加速器的广泛发展,AI加速器可显著提高AI应用的性能。
AI应用涉及数十亿到数万亿参数的复杂算法,并需要进行从4位到64位不等的混合精度的整数和浮点数多维矩阵数学运算。尽管底层数学运算由简单的乘法器和加法器组成,但在AI应用中它们会被复制数百万次,给计算引擎带来了巨大的挑战。
AI加速器包括GPU、FPGA和定制ASIC几种形式。与CPU相比,这些AI加速器的性能大幅提升,执行速度更快,模型部署更高效,具备更强的可扩展性,能处理日益复杂的AI应用。
AI技术在各行各业的广泛应用,推动了AI加速器市场的蓬勃发展。从面部/图像识别、自然语言处理,到自动驾驶汽车和生成式AI,AI正在改变我们的生活及工作方式。这场革命激发了对更快、更高效AI处理的巨大需求,促使AI加速器成为人工智能基础设施的重要组成部分。
尽管市场增长迅猛,但现有的商业AI处理产品存在一定的局限性。
最终,我们可以期待一个能够最优地完成预期任务的解决方案,这并不一定是功耗最低、成本最低或效率最高的解决方案。
目前的限制与需求
人工智能处理主要发生在两个地方:云端(数据中心)和边缘端。目前,这两个地方都有独特的要求和挑战。
·云端人工智能处理
在数据中心应用领域,AI加速器市场两极分化严重,一家主导企业控制着约95%的市场份额。为了促进更大的多样化,必须解决以下几个关键问题:
- 强大的处理能力:处理能力必须达到每秒能执行1千万亿次的浮点运算(petaFLOPs),并能在实际工作负载下稳定运行。
- AI硬件成本高昂:AI硬件的价格昂贵,限制了小型企业的使用,只有大型企业才能负担得起。
- 耗电量大:为了支持AI加速器的高能耗,需要特殊的电力供应和冷却系统,这些设施的建设和维护成本很高,使得企业扩展AI应用变得相当困难。
- 市场垄断:市场主导者可能通过控制市场,抑制市场竞争并阻碍创新,我们需要比现有产品更节能、更具成本效益的解决方案来打破这种垄断。
值得一提的是,最近数据中心的重点已从训练转向推理,这种转变降低了处理单个AI查询或请求所需的成本,并减少了在采购新硬件和维持日常运营方面的财务负担。这些转变不仅更易获得先进的AI能力,还推动了AI技术的可持续发展,从而实现跨行业的广泛应用。
·边缘AI处理
与数据中心的AI处理市场相比,边缘AI处理市场得特点是高度分散。许多初创公司针对不同行业的特定需求推出了多样化的商业产品,这种现象在促进市场竞争和创新方面是积极的。尽管如此,行业仍然需要开发更全面的解决方案,以满足广泛的应用需求。
边缘AI处理面临着一系列挑战,其中低功耗和低成本是关键标准,而计算能力则相对次要。
·处理效率和延迟:AI属性中常被忽视的部分
虽然最先进的AI处理器以令人印象深刻的处理能力为卖点,有时甚至达到每秒数千万亿次浮点运算,但它们的实际性能却常常不尽如人意。这些规格通常强调理论上的最大值,而忽略了关键的处理效率因素——即在实际应用中可达到的理论功率百分比。在执行最先进的大型语言模型时,大多数AI加速器的效率都会大幅下降,有时甚至低至1%-5%。
延迟是衡量AI处理器性能的另一个重要指标,但它往往不被包括在规格说明中。这种疏忽可能是由于延迟高度依赖于算法,以及大多数处理器在实际操作中的效率并不理想。
考虑两个实际应用场景中对延迟的严格要求:
- 自动驾驶汽车:这些系统必须迅速响应,以便在20毫秒内处理来自各类传感器的环境数据,并在30毫秒内做出并执行决策。实现这些严格的时间目标是技术面临的重大挑战。
- 生成式AI:为了维持用户的持续参与,生成式AI需要在数秒内提供首次响应。目前,这一需求通过增加并行工作的处理器加速器数量来满足。但这种方法带来了高昂的初期投资和运营成本,同时显著增加了能耗问题。
这些情况突显了商用处理器面临的主要局限,即内存瓶颈问题。内存瓶颈意味着数据传输到处理单元的速度受限,这导致处理器无法持续高效地工作,影响了整体性能。
一个可行的解决方案
为了应对挑战并保持市场领先地位,公司应该致力于开发新一代的AI加速器,聚焦于以下三个关键领域:
- 技术创新:开发基于创新型AI专用架构的解决方案,该架构能够突破内存瓶颈,即使在内存数据传输速度不足时也能保持高效运行。这种架构将提供更高的吞吐量、更低的延迟和能耗,同时降低成本,显著提升整体性能和市场竞争力。
- 可扩展性和灵活性:设计可扩展、模块化、可编程的AI加速器,使其能够适应不同的AI工作负载,并能轻松集成到多样化的平台和系统中。这种灵活性将扩大市场覆盖范围,满足从小型初创公司到大型企业的多样化需求。
- 易于部署:构建一个易于使用的软件堆栈,使算法开发者能够轻松地将算法映射到AI加速器上,无需深入了解硬件加速器的复杂性,包括RTL(寄存器传输级)设计和调试过程。这将促进开发者对解决方案的快速采纳和应用。
为了制定一个成功的战略,公司应该积极构建与软件开发商、教育机构以及其他硬件制造商之间的战略合作伙伴关系。这样的联盟将促进技术的无缝集成,并推动解决方案的广泛采纳。
AI加速器市场的未来
未来几年,预计AI加速器市场将保持快速增长的势头,这一增长主要得益于对处理更复杂AI应用需求的日益增长。这种趋势预示着市场对高性能、高效率加速器的需求将变得更加迫切。
我们预期将见证AI加速架构的创新浪潮,供应商们将致力于开发更灵活、更节能的产品。在竞争日益激烈的AI加速器市场中,那些能够在效率、可扩展性、易用性和可持续性方面提供创新解决方案的厂商将脱颖而出。
最终,市场将倾向于选择那些能够以最优化的方式执行任务的AI加速器——它们应具备节能、成本效益和高效率的特点。理想解决方案不一定是在功耗、成本或效率上达到极端最低或最高的产品,而是在这些因素间找到最佳平衡点的方案。
本文翻译自《国际电子商情》姊妹平台EETimes Europe,原文标题:
相关文章