特斯拉新一代FSD芯片深度分析,三星是最大赢家

发布时间:2023-07-18  

2019年3月,特斯拉正式推出第一代FSD芯片,全球累积出货量大约50-70万片。2023年初,特斯拉新一代自动驾驶硬件系统HW4.0曝光,新一代FSD芯片也随之问世,2023年底的Model S/X可能会搭载HW4.0,Model Y则不大可能。


最新曝光的Model Y的座舱域控制器取消了独立GPU,没错,就是那个AMD的算力达10TFLOPS的独立GPU,存储也从昂贵的GDDR6换成了最廉价的DDR4,显然特斯拉很在意成本,即便是顶配版本,昂贵的HW4.0也不大可能出现在Model Y上。

根据特斯拉爆料大神Greentheonly的信息,我们能够得到一些HW4FSD芯片的简要信息。


首先来看CPU或者说NPU之外的部分,初代FSD使用了12个ARM Cortex-A72内核,新一代FSD使用了基于三星ExynosIP的内核,最初笔者认为仍然是ARM Cortex-A72,因为三星自己研发CPU架构的行为自2019年中期就停止了,而特斯拉的HW4 FSD是2020年以后的设计。但在深入研究三星最后一代Exynos后,作者认为特斯拉完全有可能照搬三星的设计,因为这个设计非常超前,基本上近似于目前ARM Cortex X系列的旗舰X3的设计。

Exynos 990 CPU拓扑


三星自研Exynos最后一代是Exynos 990,严格地说三星自研架构叫猫鼬即Mongoose,Exynos 990的CPU包含两个M5即猫鼬5内核,两个ARM Cortex-A76内核,四个ARM Cortex-A55内核。猫鼬第一代于2016年1月的Exynos 8890搭载,之所以叫猫鼬是因为三星当时的竞争对手高通的自研架构代号是Krait即眼镜蛇科的环蛇属,而猫鼬是眼镜蛇的天敌,以眼镜蛇为主要食物。不过后来高通成了三星的大客户,三星也就很少提猫鼬,第五代猫鼬还有个代号叫Lion。

三星M5内核微架构


三星M5内核最强之处在于其IPC解码器宽度高达6位,而ARM挤牙膏的做法,直到Cortex-X3才将解码器宽度提高到6位。


ARM提升性能最有效的做法:


一是增加IPC解码宽度;


二就是增加缓存Cache容量;


三是提高核心运行频率。

三星M5虽然逼近ARM Cortex-X3,但其解码器宽度很宽,因此执行引擎的宽度多达11位,但M5的流水线不长,宽度过宽,这就注定其无法提高运行频率,而手机是强调单一大核心性能的。对比来看,ARM毕竟是专业做手机CPU核心架构的,在宽度增加情况下,流水线很长,很容易提高运行频率,X3最高频率可以达到4GHz,用在高通骁龙8 Gen2上的X3运行频率高达3.36GHz,而M5很难超过2.5GHz。这也是三星不再搞自研架构的原因之一。另一个原因在于指令集还是ARM的,ARM的架构运行起来自然更好。


但在汽车领域,M5就很合适,汽车领域是强调多核性能的,且汽车封闭性强,如特斯拉这样不打算销售芯片的厂家,完全可以用RISC-V来自定义指令集,因此基本可以确定特斯拉使用了三星的M5架构,最高运行频率是2.35GHz,典型运行频率估计是2GHz。特斯拉可能用12核或16核M5架构,搭配8核或4核Cortex-A72,A72的运行频率比较低,最低1.37GHz,典型运行频率估计是1.5GHz。特斯拉的CPU比12核A78的英伟达Orin估计要强15-30%。


第一代FSD芯片就在三星生产,三星的代工价格远低于台积电,且台积电产能紧张。特斯拉那一点量对台积电来说微不足道,台积电大客户太多,特斯拉如果去台积电流片,会被排在很靠后的位置,因为高通、AMD、联发科、博通、苹果这些台积电大客户都是数以亿片的下单量。台积电的亚利桑那工厂进展缓慢,要到2024年才投产,而三星新增的德州奥斯汀晶圆厂就在特斯拉家门口,2022年下半年投产,特斯拉没理由舍近求远。再加上特斯拉使用三星M5内核,让三星代工更顺理成章。不过,三星奥斯汀晶圆厂的5纳米工艺还不算太成熟,量产估计要到2023年底。HW4 FSD可能还是会用7纳米工艺制造,一来比较成熟,二来比较便宜。


不单是特斯拉采用三星的IP,谷歌手机的自研芯片TENSOR系列也是使用三星IP,当然也在三星代工生产,如第一代谷歌手机自研芯片TENSOR G1(谷歌内部型号就是三星S5P9845)就照搬了三星Exynos 2100的CPU和GPU设计,自己只做了NPU。G2(内部型号就是三星S5P9855)和G3则是照搬了三星的Exynos 2200的CPU设计。未来谷歌旗下的Waymo也会采用三星的IP推出自动驾驶芯片,当然也得在三星代工。


特斯拉HW4 FSD芯片可能也会像三星Exynos990一样有一个MALI G77内核的GPU,算力估计有1GFLOPS。


HW4 FSD芯片的NPU或许是大部分人最关心的,实际CPU重要程度高于NPU,NPU只是辅助角色,CPU才是主角。

第一代FSD的NPU部分拓扑图


第一代FSD的NPU乏善可陈,中规中矩,没什么亮点可言,显然这是针对传统CNN设计的NPU,Transformer时代完全不适用。如果特斯拉真要流畅运行Transformer,那么NPU和存储系统必然要大幅度改进。CNN有98%的运算都是卷积,没有时间序列,数据没有上下文联系,而Transformer模型有不少非卷积运算,包括Relu的矢量和位置的三角函数运算,数据的上下文有联系,意味着有可能有分支跳转,因此NPU必须增加标量运算系统和数据流控制系统。HW4.0采用了美光的GDDR6,带宽达224GB/s,较HW3.0提高了约6.5倍。


在分析或者说推测HW4 FSD的NPU之前,首先看一下特斯拉为自动驾驶数据中心推出的DojoD1芯片,再看一下亚马逊AWS在2022年底推出的,号称专为Transformer推理而生的芯片Inferentia2。

这是未考虑Transformer模型的第一代亚马逊推理芯片Inferentia架构,和特斯拉的FSD比添加了标量引擎,特斯拉的可编程SIMD勉强可算矢量引擎。其余二者相差不大。

针对Transformer设计的第二代Inferentia架构(上图),减少了两个Neuron内核,增加了一个CPU,即Collective compute engine,控制数据流和动态整形,还增加了一个SIMD系统,据亚马逊说这是一个通用型的DSP。此外,还升级了存储系统,从廉价的DDR4升级到了非常昂贵的HBM。

Dojo D1的架构是一个标准的CPU架构,应对标量计算,具备分支预测和跳转机制,拥有8位解码和6路执行引擎。


按照特斯拉爆料大神Greentheonly的说法,HW4 FSD芯片是3个NPU,这个NPU应该类似亚马逊Inferentia里的Neuron核心。一般来说,核心都是对称平行出现,也就是只可能是偶数,不大可能是3个,应该是特斯拉添加了一个CPU,两个NPU还是和初代FSD芯片一样,拥有96*96=9216个MAC阵列,算力就很好计算了,9216个阵列,一个MAC包含两个operation,因此就是9216*2*2.2=40.55TOPS,两个就是81TOPS,两片FSD就是162TOPS的AI算力。


添加一个CPU主要是应对Transformer,特斯拉有这方面的技术积累,Dojo的CPU架构完全可以再用一次,再有就是订制的CPU可以使用自定义的RISC-V指令集而非通常的ARM指令集,这样效率更高,近似于VLIW。


至于算力,这只是个数字游戏,单看芯片的算力毫无意义,因为AI算力的瓶颈在内存,内存的吞吐量或者说带宽远低于AI处理器的运算速度,AI处理器的速度再快,算力再高,90%的时间都是在等内存搬运数据。另一个瓶颈就是CPU,AI处理器是个协处理器,需要HOST主机做任务分配和调度,这个HOST一般就是CPU,CPU要足够强,才能发挥AI处理器的全部潜力。


服务器芯片领域都是用HBM解决内存瓶颈,但汽车领域不行,汽车领域对价格非常敏感,上万美元的芯片不可能出现在量产车上,汽车领域最多也就是GDDR6。CNN时代,外置CPU足以配合好AI处理器,Transformer时代最好内置CPU,这是绝大多数AI芯片不具备的能力。

英伟达最新最强的DGX-GH200采用的超级芯片中也是自研了CPU,即64核ARM V2,不过效果还是不如放在一个die里。


AMD的MI300则是CPU+GPU的Chiplet设计,比英伟达要好一些。

AMD MI300 DIESHOT,3个CPU内核,6个GPU内核,8个HBM3


特斯拉的芯片团队基本都来自AMD,包括在 AMD 工作了近 17 年,研究各种 Opteron 处理器以及命运多舛的“K12”Arm 服务器芯片的Emil Talpes,他在2016年4月加入特斯拉。


Autopilot的硬件架构师Debjit Das Sarma则在AMD工作了14年,也是位CPU架构师,2016年2月加入特斯拉。Douglas Williams在AMD工作了12年,2017年10月加入特斯拉,FSD芯片架构师。Ganesh Venkataramanan也在AMD工作了14年,是CPU设计工程主任,在2016年3月加入特斯拉。Rajiv Kurian则比较年轻,2017年1月加入特斯拉,2018年10月离开,跳槽到Waymo,负责Waymo的硬件加速器设计,2020年11月又跳槽回特斯拉,参与Dojo的设计。Bill Chang则在IBM工作了15年,主要负责工程管理,后跳槽到苹果,2020年加入特斯拉。


最终,还是要特斯拉公布详情。


文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    争关系。余承东表示,华为非常有信心,特斯拉FSD很不错,但华为的方案更优更安全,依然可以遥遥领先。 据媒体报道,当被问到特斯拉的满血版FSD未来进入国内,怕不怕,还能领先吗?余承东回答说:特斯拉的FSD......
    部等多部门主管,就智能网联汽车发展交换了意见。 图片来源:马斯克微博 另一方面,马斯克近日在国内社交媒体平台上提到,“特斯拉很乐意将Autopilot/FSD或其他技术授权给有需要的公司”。 要知道特斯拉的......
    希望达成这种效果。 后台支持。特斯拉的FSD Beta V12的神经网络具有这种能力,当然也离不开大量真实道路路况数据的采集以及特斯拉所打造的超算中心的支持。 马斯克亲自披露,通过特斯拉......
    FSD即将入华,能否为国内自动驾驶添把火?;在特斯拉的一众核心技术中,FSD (Full Self-Drive,“完全自动驾驶”)无疑是最受各方关注的核心所在。但受限于包括法规在内的各种制约,FSD......
    特斯拉FSD是否比国内智能驾驶先进?;特斯拉的四项数据安全合规,FSD有望落地中国市场。很多人就说了,特斯拉的自动驾驶一落地中国市场,那血洗一片啊,那咱中国的车子不要卖了!有那么夸张吗?没那......
    核,最初笔者认为仍然是ARM Cortex-A72,因为三星自己研发CPU架构的行为自2019年中期就停止了,而特斯拉的HW4 FSD是2020年以后的设计。但在深入研究三星最后一代Exynos后,作者认为特斯拉......
    头的数量和系统的感知能力。这种硬件迭代与特斯拉的软件发展同步进行,推动了FSD系统的不断成熟。• HW1.0阶段(2014年):特斯拉最初的自动驾驶硬件平台基于Mobileye的EyeQ3芯片,主要......
    智能驾驶谁最厉害 - 华为ADS?特斯拉FSD?;最近特斯拉的FSD爆出在国内已经拿到测试牌照,FSD 进入国内倒计时中;而国内的华为在智能驾驶方面也是老早就喊出了遥遥领先的口号,所以,如果让特斯拉......
    依旧拥有出色的自动驾驶能力,此前马斯克在海外社交平台透露,特斯拉将发布最新的FSD V 12版(取消测试版),有消息称该版本很可能已经具备完全自动驾驶能力,因此特斯拉不再加上测试版的名称后缀。 而国内......
    见向其他企业授权Autopilot/FSD或其他特斯拉技术”。 外媒认为,马斯克可能低估了其他企业的驾驶辅助系统。特斯拉的Autopilot确实不错,但通用的Supercruise和福特的Blue Cruise......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>