特斯拉超级计算机系统:挑战英伟达,开启视觉为重点AI新时代

2023-09-19  

特斯拉不仅仅是一家领先的电动汽车制造商,更是在人工智能和机器人领域的杰出创新者。今年8月,第二届特斯拉AI日上,特斯拉展示了自家研发的Dojo超级计算机系统,以及在自动驾驶、神经网络和人形机器人领域的最新成果。Dojo超级计算机系统专门设计用于人工智能机器学习,旨在处理和训练自动驾驶系统所产生的海量视频数据。它采用特斯拉独有的芯片技术和整体基础设施,借助特斯拉车队的视频数据进行神经网络能力训练。这些训练对支持特斯拉自动驾驶的计算机视觉技术至关重要。那么,Dojo超级计算机系统到底有多强?它将对特斯拉和整个行业产生何种影响?本文将从多个方面对其进行深入分析。

硬件性能


Dojo 超级计算机系统由三个主要组件组成: D1芯片、培训磁贴和 ExaPOD 集群。D1芯片是特斯拉自主研发的AI训练芯片,采用台积电7nm制程技术工艺,在645mm2的面积上整合了500亿颗晶体管。其BF16u002FCFP8计算能力可达362TFLOPS(每秒万亿次浮点运算),FP32计算能力可达22.6TFLOPS(每秒万亿次浮点运算),TDP(热设计功耗)为400W。相比之下,英伟达旗舰计算卡A100 GPU,同样采用台积电7nm制程工艺,面积为826mm2,晶体管以及数量达542亿颗,FP32峰值算力为19.5TFLOPS,TDP也为400W。基于 D1芯片,特斯拉引入了一种单晶片系统解决方案,使用 TSMC InFO 封装技术将25个 D1瓷砖集成到一个单独的训练瓷砖上,每个 Dojo 训练瓷砖消耗15kW。

Dojo训练Tile包括通过计算、I/O、功率和液冷系统模块。Dojo系统托盘具有高速连接、密集集成的特点,75mm的高度支撑135kg的重量。其BF16/CFP8峰值算力可达54TFLOPS,功耗可以高达100+kW。Dojo 接口处理器是一个具有高带宽内存的 PCIe 卡,利用了 Tesla 自己的 TTP 接口。在10个机柜的系统中,Dojo ExaPOD集群将实现中国超越E级算力,其BF16u002FCFP8的峰值运算能力达到1.1EFLOPS(每秒十亿次浮点运算),拥有1.3TB高速SRAM和13TB高带宽DRAM。特斯拉计划于2023年第一季度完工第一个ExaPOD,并在帕洛阿尔托总部建造7台ExaPOD。特斯拉的愿景是将Dojo打造成全球五台最先进的超级计算机之一,总算力达到100 Exa-Flops(每秒百京亿次浮点运算)。

软件性能


Dojo超级计算机系统拥有一整套软件栈,包括Dojo编译器、Dojo Ingest Pipeline、Dojo Runtime和Dojo Library。Dojo编译器将Dojo大型分布式系统视为加速器,实现对神经网络模型的自动优化和并行化。Dojo Ingest Pipeline能够快速将视频数据转换为神经网络的输入格式,提高数据加载效率。Dojo Runtime管理Dojo系统的资源分配和调度,实现多个任务的并发执行。Dojo Library提供了常用的神经网络算法和操作,支持TensorFlow、PyTorch等流行的深度学习框架。整个系统在软件方面实现了高度集成,Dojo编译器使用户信息能够将Dojo大型分布式管理系统可以视为自己一个加速器。

在一个现场演示中,特斯拉的首席工程师 Rajiv Kurian 展示了运行在 Dojo 上的稳定扩散,并根据“火星赛博卡车”的提示创建了由人工智能生成的图像。他开玩笑说,似乎在匹配特斯拉设计团队之前,还需要很长的时间。Dojo编译器的归一化Batch Norm结果分析表明,相比GPU,Dojo具有一个数量级的延迟时间优势。Dojo在运行经典图像分类模型ResNet-50时,也可以实现比NVIDIA A100更高的帧率。在运行进行自动标注算法研究以及发展预测中国汽车周围所有物体空间占用率的神经系统网络信息模型Occupancy Networks时,Dojo能够有效实现经济性能的倍增,相比英伟达A100,Dojo的计算开销不到以前所需的6个GPU Box的一部分。以前需要72个GPU机架的自动贴标算法,现在只需要4个Dojo机柜。

影响力


Dojo超级计算机系统将为特斯拉带来巨大的竞争优势和市场潜力。首先,Dojo将提升特斯拉车辆的自动驾驶能力,使其朝着L5级别的完全自动驾驶迈进。特斯拉已经拥有全球最大的自动驾驶数据集,来自中国超过100万辆特斯拉车辆的真实信息数据将汇总并通过Dojo进行研究深度学习神经系统网络技术训练,从而可以帮助特斯拉的Autopilot不断发展进化,最终实现以纯视觉为基础的完全实现自动驾驶(FSD)。这将使得特斯拉在自动驾驶领域更加领先于其他竞争对手,并为其未来推出机器人出租车服务奠定坚实的基础。

另一方面,Dojo还将开辟新的潜在市场,例如机器人、医疗保健和安全领域。特斯拉已经宣布了首款人形机器人“擎天柱”的开发计划,这款机器人将使用与特斯拉车辆相同的自动驾驶计算机和神经网络,同时也得益于Dojo超级计算机的支持,能够执行各种简单的重复性任务,例如购物、搬运和清洁等。特斯拉的机器人将是一种全新的智能生命体,将改变人类的生活方式和工作方式。

除了机器人领域,Dojo也有望应用于医疗保健和安全领域,利用其强大的视觉处理能力,提供更精确的诊断、治疗、预防和保护。此外,Dojo还有潜力成为类似亚马逊AWS的云服务提供商,为其他汽车制造商或行业提供以视觉为重点的算法服务,从而创造新的收入来源。一些分析师预测,Dojo将为特斯拉增加5000亿美元的市值,主要受益于移动领域(机器人出租车)和网络服务(SaaS)方面更快的采用率。

综上所述,特斯拉Dojo超级计算机系统是一款具有革命性意义的人工智能平台,将使得特斯拉在自动驾驶领域更加领先,并开拓新的潜在市场。Dojo也将对国内新能源车企构成巨大的竞争压力,迫使它们寻找自己的解决方案。Dojo超级计算机系统是特斯拉未来发展的重要支柱之一,值得我们密切关注。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。