Arteris 和 Arm 宣布更新合作伙伴关系。 除了已经支持的选项(例如 CHI-B、ACE 等)之外,该功能已扩展到涵盖最新的 AMBA5。 这里有几个值得注意的点。 首先,Arm 的新型汽车增强型 (AE) 内核将协议支持从 CHI-B 升级到了 CHI-E,并且 Arm/Arteris 合作根据 CHI-E 标准验证 Arteris Ncore 相干 NoC 生成器。 其次,Arteris 还完成了通过 ASIL B 和 ASIL D 的 CHI-E 协议扩展来认证 Ncore 生成的网络的工作。(Ncore 生成的网络已经针对早期协议进行了认证,FlexNoC 生成的非相干 NoC 网络也是如此 .) 简而言之,Arteris 相干和非相干 NoC 生成器已经与最新的 Arm AE 版本和 ASIL 安全标准保持一致。 这就提出了一个问题:汽车系统中哪些地方需要相干和非相干片上网络? Frank Schirrmeister(Arteris 解决方案和业务开发副总裁)帮助澄清了我的理解。
Arteris 在汽车中构建片上网络拓扑
汽车、数据中心/HPC 系统对比
多用途数据中心针对每瓦每美元的任务吞吐量进行了高度优化。 CPU 和 GPU 设计利用非常同质的架构来实现高水平的并行性,通过一致的网络进行连接,以最大限度地发挥并行性的优势,同时确保各个处理器不会在共享数据上相互干扰。 数据通过常规网络连接流入和流出这些系统,功耗和安全都不是主要问题(尽管功耗已变得更加重要)。
汽车系统架构更加多样化。 大多数数据来自传感器(传动系统监控和控制、摄像头、雷达、激光雷达等),实时传输到一个或多个信号处理器级,通常在 DSP 或(非 AI)GPU 中实现。 接下来是对象识别、融合和分类的处理阶段。 这些阶段可以通过 NPU、GPU、DSP 或 CPU 来实现。 最终,处理后的数据流入中央决策,通常是一个大型人工智能系统,也可能同样位于数据中心。 这些长处理链必须在汽车架构中仔细分布,以满足关键的安全目标、低功耗目标,当然还有成本目标。 例如,通过繁忙的汽车网络将整个帧从摄像头传输到中央人工智能系统,然后开始识别即将发生的碰撞,但这样速度太慢了。 在这种情况下,最初的危险检测可能会在靠近摄像机的地方进行,从而将子系统必须发送到中央控制器的数据减少为更小的数据包。
这些要求的结果是,人工智能功能作为子系统分布在汽车系统架构中,并且每个子系统都由功能、CPU、DSP、NPU 和 GPU 等的异构组合组成。
为什么需要一致性?
每当多个处理器处理公共数据(例如图像中的像素)时,一致性就很重要,其中至少一个处理器有机会写入本地缓存中的逻辑地址,而另一个处理器有机会从不同缓存中的同一逻辑地址读取数据 。 问题是第二个处理器看不到第一个处理器所做的更新。 在通过分层内存缓存共享数据的多处理器系统中,这种危险是不可避免的。
一致性网络的发明是为了通过缓存之间的检查和控制来确保数据严格一致。 一个流行的例子是多核处理器服务器中常见的相干网状网络。 这些网络针对常规结构进行了高度优化,以保留使用共享缓存的性能优势,同时避免一致性冲突。
一致性需求不仅限于通过同构处理器阵列进行线程化的网状网络。 汽车中的大多数子系统都是异构的,连接已经讨论过的多种不同类型的功能。 在通过流操作处理图像时,其中一些子系统同样需要一致性管理。 相反,如果某些函数可以在单独的逻辑内存区域中操作,或者如果它们不需要同时操作,则它们可能不需要一致性管理。 在这些情况下,非相干网络将满足需要。
因此汽车芯片中的 NoC 必须管理芯片上的相干和非相干网络,以获得最佳性能。
六种车载NoC拓扑
Frank 通过最近 AE 公告中的 Arm 用例进行了说明,并在这些用例上叠加了 NoC 拓扑的 Arteris 视图(请参阅开篇图)。
边缘的小型微控制器(例如传动系统和车窗控制器)不需要一致性支持。 这并不意味着他们不使用人工智能——预测维护支持是 MCU 的一个活跃趋势。 但不需要高性能的数据共享。 非相干片上网络非常适合这些应用。 由于这些 MCU 必须位于它们测量/控制的任何位置旁边,因此它们远离中央或区域控制器,并作为独立芯片出现。
根据 Frank 的说法,区域控制器可能是非相干的,也可能支持某些相干互连,我想这反映了 OEM 架构选择的差异。 也许流图像处理在传感器子系统中处理,或者某些处理在区域控制器中处理。 另一方面,他认为视觉/雷达/激光雷达处理通常需要大部分非相干网络,而相干网络要求有限。 虽然流式架构通常需要一致性支持,但任何给定的传感器可能仅生成一个或几个流,最多需要有限的一致性内核来进行初始识别。 根据定义,区域控制器分布在汽车周围,因此也是单片芯片解决方案。
进入汽车驾驶舱后,信息娱乐 (IVI) 可能需要更多相干和非相干组合支持,例如覆盖物体识别的成像。 这些系统可能是单片的,但也适合Chiplet实现。 L2+ 级及更高级别的集中式 ADAS 控制(融合来自传感器的输入,用于车道识别、碰撞检测等)将需要更多的一致性支持,但仍然需要大量的非一致性网络。 如今,此类系统可能是单片系统,但正趋向于小芯片实现。
最后,正如我之前提到的,汽车中的中央人工智能控制器正在迅速成为类似大数据中心的系统的同类。 Arm 已经推出了基于 AE CSS 的 Neoverse 众核平台 (2025) 前端 AI 加速器。 在这个大型引擎中添加更多专用引擎(DSP、NPU 和其他加速器)以支持更高级别的自动驾驶,集中合成来自汽车周围的输入,并对这些输入采取智能行动。 这样的系统将需要混合包含处理器阵列的大型相干网状网络、连接到其他一些加速器的分布式相干网络和连接其他地方的非相干网络。
总之,虽然不断发展的汽车架构非常复杂,并且对通过相干和非相干网络在片上连接的子系统芯片/小芯片设计产生了很大的影响,但这些系统背后的意图非常明确。 我们需要开始考虑整个汽车系统架构,而不是单个芯片功能。