瞄准五大方向持续攻关,构建AI网络底座

发布时间:2024-08-26  

如果企业拥有数据中心,需要关注的是人工智能()技术可能很快就会部署到数据中心。无论AI系统是一个聊天机器人,还是横跨多个系统的自动化流程,亦或是对大型数据集的有效分析,这项新技术都有望加速和改善许多企业的业务模式。然而,AI的概念也可能会令人产生困惑和误解。是德科技的这篇文章旨在探讨有关AI网络如何工作以及该技术面临的独特挑战等五个方面的基本问题。

相当于AI计算机的“大脑”

简单来说,AI计算机的大脑就是图形处理器(GPU)。过去,人们可能听说过中央处理器(CPU)是计算机的大脑。GPU 的优势在于,它是一个擅长进行数学计算的 CPU。当创建AI计算机或深度学习模型时,需要对其进行 “训练”,这就要求对可能包含数十亿个参数的数学矩阵方程进行求解。进行此种数学运算的最快方法是让多组 GPU 在相同的工作负载上运行,即便如此,训练AI模型也可能需要数周甚至数月的时间。AI模型创建后,会被迁移到前端计算机系统,用户可以向模型提问,这就是所谓的推理。

AI计算机集众多GPU于一身

用于处理AI工作负载的最佳架构是在一个机架中集成一组GPU, 并将其连接到机架顶部的交换机中。还可以有更多的 GPU 集成机架,按照网络层次结构连接所有 GPU。随着所要解决的问题的复杂性增加,对 GPU 的需求也就越大,有些将要部署的解决方案可能会包含数千个 GPU 集群。这不难让人联想到数据中心里一排又一排密密麻麻的服务器机架,这种场景非常常见。

AI集群是一个小型网络

在构建AI集群时,有必要将更多GPU连接起来,这样它们才能协同工作。而GPU之间的连接可以通过创建微型计算机网络的方式来实现,让GPU与GPU之间能够互相发送和接收数据。

图1:AI集群

图1展示了一个AI集群,其中最下方的圆圈代表了GPU在执行任务时的工作流程。将许多GPU连接到了机架顶部(ToR)的交换机。ToR 交换机还连接到了上图顶部的骨干网络中使用的交换机,这张图充分描绘了需要集成众多GPU时所采用的清晰网络层次结构。

AI部署的瓶颈在于网络

去年秋天,在OCP(开放计算项目)全球峰会上,与会者重点讨论了新一代AI基础设施。其中,来自迈威尔科技的Loi Nguyen充分阐述了由此出现的一个关键问题:网络已经成为新的瓶颈。

GPU在解决数学问题或者处理工作负载方面非常有效。这些系统完成任务的最快方法是让所有 GPU并行计算、协同工作来处理相同的工作负载。要做到这一点,GPU需要获取它们即将处理的信息,并且它们彼此之间可以互相进行通信。如果其中一个GPU没有得到它所需的信息,或者需要更长的时间来输出结果,那么所有其他GPU都必须等待,直到能够一致协作来完成任务。

从技术角度来讲,拥堵的网络造成的数据包延迟或者数据包丢失可能会导致系统需要反复重新传输数据包,并显著延长完成任务所需的时间。这意味着,可能会有价值数百万或数千万美元的 GPU闲置,从而影响最终的结果,当然也可能会影响希望通过利用AI技术获得商机的企业的上市时间。

测试是成功运行AI网络的关键

为了高效运行AI集群,用户需要确保GPU得到充分利用,这样才能较早地完成学习模型的训练,并将其投入使用,实现投资回报最大化。这就需要对AI集群(图2)的性能进行测试和基准测试。然而,这并不是一件轻而易举的事儿,因为GPU和网络架构之间有着千丝万缕的联系和诸多设置,它们需要在架构上实现互补,以满足处理工作负载的需要。

图2:AI数据中心测试平台及如何测试AI数据中心集群

这给AI网络带来了诸多挑战:

考虑到成本、设备的可用性、熟练的网络 AI 工程师的时间、空间、功率和热量等因素的限制,很难在实验室中复刻完整的工作网络。

在工作系统上执行测试会降低工作系统可用的处理能力。

由于工作负载的类型以及数据集的规模大小和范围可能大不相同,因此所要研究的问题也会难以重现。

深入洞察GPU之间的集体通信也颇具挑战性。

应对上述挑战的方法之一是,首先在实验室环境中对所提出的设置的一个子集执行测试,以便对JCT、整个AI集群所能达到的带宽等关键参数进行基准测试,同时将这些参数与Fabric容量利用率以及内存缓冲区消耗情况进行比较。这种基准测试有助于找到/工作负载的分布与网络设计/设置之间的平衡点。当计算架构和网络工程师对结果比较满意时,他们就能够将这些设置应用到执行任务的工作系统中并且衡量新的结果是否理想。

小结

为了充分释放AI的潜能,需要优化AI网络的设备和基础架构。企业的研究实验室和学术机构致力于对构建和运行高效AI网络所涉及的各个层面进行分析,以解决在大型网络上执行任务所面临的挑战。尤其是在当前行业最佳实践正不断发生变化的情况下,形势更是如此。只有采用这种可以反复验证、高度协作的方法,业界才能实现可重复的测试,并灵活地尝试各种“假设 ”场景,这是优化网络的基础。

作者:是德科技产品营销经理 Linas Dauksa

文章来源于:21IC    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    关键技术难题组建课题攻关小组,提高的技术创新能力,实现攻坚克难与关键核心技术的突破,促进我国射频前端整体水平进入国际先进行列。 官方称,本次项目的开展将促使创新火花竞相迸发,推动合肥射频前端乃至集成电路产业聚“链......
    结合中科大、港科大、安努奇科技三方在射频前端领域的技术优势与产业化经验,针对关键技术难题组建课题攻关小组,提高射频微系统芯片的技术创新能力,实现攻坚克难与关键核心技术的突破,促进我国射频前端整体......
    三安集成携射频前端整合解决方案首次亮相MWC巴塞罗那展;国际通信行业盛会MWC 24于西班牙巴塞罗那召开,全球通信及其相关供应链的顶尖企业荟聚一堂,展示移动通信领域的前沿研究成果,与国......
    三安集成携射频前端整合解决方案首次亮相MWC巴塞罗那展; 2024年2月26日,国际通信行业盛会MWC 24于西班牙巴塞罗那召开,全球通信及其相关供应链的顶尖企业荟聚一堂,展示......
    三安集成携射频前端整合解决方案首次亮相MWC巴塞罗那展; 2024年2月26日,国际通信行业盛会MWC 24于西班牙巴塞罗那召开,全球通信及其相关供应链的顶尖企业荟聚一堂,展示......
    如此,这个系统还是不完美的。“神经机器翻译还是会犯一些笔译人员永远都不可能犯的错误,比如漏了一些单词、把一些常见的名字或是少见的专有名词翻错、对文章语境缺乏整体把控等等。所以,我们......
    OTA”)国际标准项目在2022年9月的3GPP RAN#97次全会上获批结项。在此基础上,国际标准TS38.151正式发布,这标志着5G终端空口性能要求标准正式落地,业界在5G终端整......
    数智化的出现帮助企业建立集中控制中心,通过对生产全流程信息的透明化展示,只需几个人就能实现对全流程的统一管理,节省人力成本的同时提高了企业对全流程的整体把控。精益数智化可以作为新工厂建设的参考体系,指导......
    如何高效入手STM32H7?整体把控一下框架;初学STM32H7一定要优先整体把控芯片的框架,不要急于了解单个外设的功能。 1 初学者重要提示 学习一款新的芯片,优先掌握系统框架是比较重要的,建议......
    说整个显示产业都迫切需要新的8K 显示技术为终端显示应用提供支撑。 1   整体技术架构 5G+ 超高清直播解决方案,前端音视频采集设备与终端显示设备分别通过5G 网络接入到超高清内容分发平台,由平......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>