瞄准五大方向持续攻关,构建AI网络底座

发布时间:2024-08-26  

image.png

作者:是德科技产品营销经理 Linas Dauksa


如果企业拥有数据中心,需要关注的是人工智能(AI)技术可能很快就会部署到数据中心。无论AI系统是一个聊天机器人,还是横跨多个系统的自动化流程,亦或是对大型数据集的有效分析,这项新技术都有望加速和改善许多企业的业务模式。然而,AI的概念也可能会令人产生困惑和误解。是德科技的这篇文章旨在探讨有关AI网络如何工作以及该技术面临的独特挑战等五个方面的基本问题。  


GPU相当于AI计算机的“大脑”


简单来说,AI计算机的大脑就是图形处理器(GPU)。过去,人们可能听说过中央处理器(CPU)是计算机的大脑。GPU 的优势在于,它是一个擅长进行数学计算的 CPU。当创建AI计算机或深度学习模型时,需要对其进行 “训练”,这就要求对可能包含数十亿个参数的数学矩阵方程进行求解。进行此种数学运算的最快方法是让多组 GPU 在相同的工作负载上运行,即便如此,训练AI模型也可能需要数周甚至数月的时间。AI模型创建后,会被迁移到前端计算机系统,用户可以向模型提问,这就是所谓的推理。


AI计算机集众多GPU于一身


用于处理AI工作负载的最佳架构是在一个机架中集成一组GPU, 并将其连接到机架顶部的交换机中。还可以有更多的 GPU 集成机架,按照网络层次结构连接所有 GPU。随着所要解决的问题的复杂性增加,对 GPU 的需求也就越大,有些将要部署的解决方案可能会包含数千个 GPU 集群。这不难让人联想到数据中心里一排又一排密密麻麻的服务器机架,这种场景非常常见。


AI集群是一个小型网络


在构建AI集群时,有必要将更多GPU连接起来,这样它们才能协同工作。而GPU之间的连接可以通过创建微型计算机网络的方式来实现,让GPU与GPU之间能够互相发送和接收数据。


image.png

图1:AI集群


图1展示了一个AI集群,其中最下方的圆圈代表了GPU在执行任务时的工作流程。将许多GPU连接到了机架顶部(ToR)的交换机。ToR 交换机还连接到了上图顶部的骨干网络中使用的交换机,这张图充分描绘了需要集成众多GPU时所采用的清晰网络层次结构。


AI部署的瓶颈在于网络


去年秋天,在OCP(开放计算项目)全球峰会上,与会者重点讨论了新一代AI基础设施。其中,来自迈威尔科技的Loi Nguyen充分阐述了由此出现的一个关键问题:网络已经成为新的瓶颈。


GPU在解决数学问题或者处理工作负载方面非常有效。这些系统完成任务的最快方法是让所有 GPU并行计算、协同工作来处理相同的工作负载。要做到这一点,GPU需要获取它们即将处理的信息,并且它们彼此之间可以互相进行通信。如果其中一个GPU没有得到它所需的信息,或者需要更长的时间来输出结果,那么所有其他GPU都必须等待,直到能够一致协作来完成任务。


从技术角度来讲,拥堵的网络造成的数据包延迟或者数据包丢失可能会导致系统需要反复重新传输数据包,并显著延长完成任务所需的时间。这意味着,可能会有价值数百万或数千万美元的 GPU闲置,从而影响最终的结果,当然也可能会影响希望通过利用AI技术获得商机的企业的上市时间。


测试是成功运行AI网络的关键


为了高效运行AI集群,用户需要确保GPU得到充分利用,这样才能较早地完成学习模型的训练,并将其投入使用,实现投资回报最大化。这就需要对AI集群(图2)的性能进行测试和基准测试。然而,这并不是一件轻而易举的事儿,因为GPU和网络架构之间有着千丝万缕的联系和诸多设置,它们需要在架构上实现互补,以满足处理工作负载的需要。


image.png

图2:AI数据中心测试平台及如何测试AI数据中心集群


这给AI网络带来了诸多挑战:


  • 考虑到成本、设备的可用性、熟练的网络 AI 工程师的时间、空间、功率和热量等因素的限制,很难在实验室中复刻完整的工作网络。

  • 在工作系统上执行测试会降低工作系统可用的处理能力。

  • 由于工作负载的类型以及数据集的规模大小和范围可能大不相同,因此所要研究的问题也会难以重现。

  • 深入洞察GPU之间的集体通信也颇具挑战性。


应对上述挑战的方法之一是,首先在实验室环境中对所提出的设置的一个子集执行测试,以便对JCT、整个AI集群所能达到的带宽等关键参数进行基准测试,同时将这些参数与Fabric容量利用率以及内存缓冲区消耗情况进行比较。这种基准测试有助于找到GPU/工作负载的分布与网络设计/设置之间的平衡点。当计算架构和网络工程师对结果比较满意时,他们就能够将这些设置应用到执行任务的工作系统中并且衡量新的结果是否理想。


小结


为了充分释放AI的潜能,需要优化AI网络的设备和基础架构。企业的研究实验室和学术机构致力于对构建和运行高效AI网络所涉及的各个层面进行分析,以解决在大型网络上执行任务所面临的挑战。尤其是在当前行业最佳实践正不断发生变化的情况下,形势更是如此。只有采用这种可以反复验证、高度协作的方法,业界才能实现可重复的测试,并灵活地尝试各种“假设 ”场景,这是优化AI网络的基础。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    展会上,造物数科首次发布“应龙InPDM”。PDM不仅是集成产品设计与制造平台,也是产品设计与制造集成工具链,更是产品数据管理。 企业数字化转型的底层逻辑 企业数字化转型的底层逻辑......
    技术重构和全场景智能化应用需求。MAXIEYE以BEV重新定义智能驾驶全系产品,发布轻地图NOA量产方案和行泊合一高阶域控新品。 至此,智驾科技MAXIEYE已完成AI+数据智能双轮驱动的技术全景布局,并打通底层......
    重新定义智能驾驶全系产品,发布轻地图NOA量产方案和行泊合一高阶域控新品。至此,智驾科技MAXIEYE已完成AI+数据智能双轮驱动的技术全景布局,并打通底层可持续进化产品栈,交出......
    可达1000万元。 提升人工智能技术产业应用。推动人工智能大模型、知识图谱、机器学习等技术在产业领域落地应用,加强行业大模型在垂直领域的深度应用。依照有关规定给予支持。同时支持在集成电路、汽车等重点产业领域打......
    于智能物联网操作系统研发;立足无锡,辐射全国,聚焦垂直行业领域,为客户创造价值,服务使能千行百业,推动万物互联。 稿源:美通社......
    出“记忆共享=城市NOA”,其底层逻辑有三: 1、技术架构上。 根据特征提取,智驾科技发布的青云BEV架构可实现道路拓扑横纵向精度的显著提升,横向拓扑精度5公分,纵向拓扑精度误差1‰,稳定......
    三集团在“云智原生”战略指引下,将持续构建“云数智”三维能力,通过绿洲平台聚焦垂直行业数字化解决方案落地并加速生态赋能,引领医疗行业客户迈入数字化、智能化应用的新阶段。 ......
    从芯片角度去解决应用问题,聚焦“应用为王”,而不仅是单个芯片的设计。 图2. 跃昉科技研发副总裁袁博浒指出“应用为王”的芯片产品定义底层逻辑 当前,RISC-V的生态还不够完善,如果由客户单方面基于SoC芯片......
    的芯片定制化业务是一种现在以及未来的趋势,在这种趋势下能找到更多芯片创新的机会。每颗IP不但有针对垂直领域的定制化需求,还要能快速交付,只有定制化才能带给用户更大的价值,例如减少不必要的冗余逻辑......
    业务与市场规模的拓展,四维图新进一步开疆扩土,屹立科技革新的潮头,积极赋能未来驾驶。 底层逻辑,决定战略高度 汽车智能化成为行业主流趋势,整车制造商及零部件供应商纷纷以智能汽车为载体,展开......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>