碾压SA8295P的高通SoC来了，高合首发

发布时间:

来源: 电子工程世界

座舱SoC天花板是SA8295P？当然不是，AMD的一系列嵌入式处理器都可以碾压SA8295P，高通自己的座舱SoC如SA8255P也可以在AI领域超越SA8295P，主要原因是SA8295P是2021年初的产品，其设计范围在2020年就已确定了，却没想到座舱领域被中国车企卷得不成样子，遂在定位低于SA8295P的产品上也持续加大算力。

2023年9月19日，极越01首发高通骁龙8295智舱芯片。骁龙8295是最强的车机芯片，采用5nm制程工艺、8倍于8155的算力。在安兔兔车机性能榜单中，其跑分近70万，几乎是骁龙8155的2倍。就在同一天下午，高合在展翼日正式发布自研高算力智能座舱平台。该平台将首搭高通QCS8550芯片，实现行业首发，根据官方数据对比显示，全面优于SA8295。不出意外的话，比亚迪下一代也会用QCS8550。

两者最大性能差别就是AI算力。

图片来源：高通

这张图有混淆视听之嫌，需要解释清楚，这个96TOPS是INT4精度下的算力，而SA8295P是不支持INT4精度的。不过即便比INT8精度，QCS8550也有48TOPS，也是遥遥领先。

CPU也碾压SA8295P，高达300kDMIPS，GPU是Adreno 740，算力达3.6TFLOPS，同样比SA8295P要高。就制造工艺而言，QCS8550是4纳米，SA8295P还是5纳米。

QCS8550是何方神圣？

图片来源：高通

上图是高通对QCS8550/QCM8550的定位，显然它不是车规级芯片，不过这无所谓，特斯拉Model S那颗AMD显卡芯片连工业级都没做到，也没人指责过，这个至少是工业级，不是消费级的。而现在的Model 3/Y上用的AMD Ryzen V1000系列产品，是工业级产品，也不是车规级的，也没人敢指责特斯拉。再有就是国内顶级新能源大厂一直都是用高通非车规级模组做座舱，用非车规级做座舱的至少有30%以上。

高通QCS8550/QCM8550的参数

图片来源：高通

QCM就是带modem。看一眼这个CPU配置，略有经验的人便能看出，这就是手机领域骁龙8gen2的修改版，实际单看型号也能看出，8Gen2的型号就是SM8550。

骁龙8Gen3和8Gen2对比

上表对比后不难发现，QCS8550就是8Gen2，两者完全一致。

强大的AI算力不难做到，难以做到的是低成本下的高AI算力，而高通最擅长的就是低成本下的AI算力。对芯片来说硬件成本基本等同于die size面积大小，高通SoC 的die size一般都很小，一般都低于120平方毫米，而英伟达Orin和华为MDC 610要400平方毫米以上。座舱SoC中，高通的AI算力异乎寻常地强，这个48TOPS真能运行大模型么？当然不能运行ChatGPT3这种大模型，就算单张H100也不能，流畅运行ChatGPT3至少需要8张H100和两片6千美元的CPU芯片。

高通的AI算力这么强主要源自其独特的DSP架构和VLIW指令集，其渊源是ATI，早在2004年高通与ATI达成合作计划，决定把ATI公司的3D图形技术集成到高通下一代移动处理器之中，看中的就是ATI Imageon。后来ATI被AMD收购，ATI Imageon也更名为AMD Imageon。2009年，高通以6500万美元收购了AMD的移动设备资产，取得了AMD的矢量绘图与3D绘图技术相关知识产权，不用再向AMD缴纳技术授权费用。后来高通独立发展出了一种全新的GPU品牌体系——Adreno。Adreno GPU此后不断开花结果，历经多年演化，占据了移动GPU市场的主导地位。

实际ATI的技术不止供养了日后的Adreno，ATI也开发了VLIW技术。以ATI Radeon HD 5800为例，GPU由20个SIMD计算引擎组成，每个SIMD计算引擎由16个线程处理器单元（Thread Processor - TP）组成。而每个TP则是一个5-way的VLIW Processor。虽然后来VLIW退出GPU领域，但在DSP领域大放异彩，在AI时代更是大展神威，助力高通成为移动霸主。

VLIW就是超长指令集。

几种指令集的对比

VLIW类似于多条RISC指令的集合，VLIW的思路是硬件尽量简单化，硬件只负责取指令和执行指令，其余一概不管，把困难推给编译器，让编译器来做指令调度。首先我们还得知道编译器是什么，比如C语言、C++、Java这样的程序，当我们一行一行写下代码后，需要经过编译器的“翻译”才能变成可执行程序才可以执行，才可以实现代码到程序的转变。电脑（其实主要就是CPU）只认识0或1这两个数字。所有写的一切代码，都需要编译器帮我们编译也就是翻译成大量的01代码（实际中间还有一步就是生成汇编代码），才是CPU的“母语”，CPU才会熟练的帮我们飞速般去执行。

VLIW把多条独立的指令打包为一个指令集并交给编译器，编译器根据指令的不同形式判断指令的运行周期，将运行周期比较一致的指令安排在一起发射并执行。VLIW最大好处是实现了并行计算，比如VLIW的数据总线长如果是1024比特，那么对4比特数据，一次可以取256个，取到数据进行并行计算（前提是你得有256套ALU加寄存器之类的硬件系统），一个指令就可以完成256个周期运算，如同256个内核。缺点很明显，如果这256个计算中有一个卡壳了，那么其余255个必须停下来等待这个计算完成，这就是锁步，大家的步伐必须完全一致，而传统的超标量CPU不会，它可以乱序执行。还有一个缺点就是即使只有10个指令，其余那246个也必须空转，这意味着功耗很高。这与近期的SIMD可变矢量长度非常近似，但SIMD只是一次性取了256个4比特数据，VLIW完全依靠软件就实现了并行计算。1994年英特尔和惠普签订协议，宣布共同开发面向高性能计算（HPC）的处理器，也就是后来的Itanium，安腾。他们以VLIW指令作为基础，提出了显式并行指令集运算EPIC（ Explicitly parallel instruction computing）。不过这对开放式软件系统挑战太大，2000年以后就消失了，但VLIW+DSP慢慢崛起了。

VLIW处理器示意图

DSP与传统CPU或GPU最大不同是其采用哈佛架构，将存储器空间划分成两个，分别存储程序和数据。它们有两组总线连接到处理器核，允许同时对它们进行访问，每个存储器独立编址，独立访问。这种安排将处理器的数据吞吐率加倍，更重要的是同时为处理器核提供数据与指令。DSP芯片广泛采用2-6级流水线以减少指令执行时间，从而增强了处理器的处理能力。这可使指令执行能完全重叠，每个指令周期内，不同的指令都处于激活状态。更像是脉动处理器，数据一次导入，流转周期很长，效率极高。DSP最强之处还有它可实现零开销循环，而AI引擎通常就是零开销循环结构，不会发生任何用于比较和分支的分支控制开销。

但DSP本质还是近似CPU的设计，不适合做并行计算，它最适合的是图像压缩算法或快速傅里叶变换（FFT）这种算法，即串行数据流形式的计算，而VLIW是天生并行指令集，二者结合后就非常适合AI运算，AI运算即是并行矩阵运算，也是数据流形式。

高通的AI表现与编译器关系非常密切，但大家都知道编译器是静态的，无法实现动态调整，因此某些模型可能在高通芯片表现很差，很多搞座舱的都没使用过高通的DSP运算能力，智能驾驶领域用DSP的人也很少，因为太难用了。而高通唯一一款通用AI计算器AI100上，高通没有使用其最擅长的DSP架构，而是传统的MAC阵列架构，主要也是为了尽可能扩大应用面。

大模型是可以跑，但谁都不会公布延迟是多少毫秒，AI算力这游戏还是蛮有趣的。

文章来源于: 电子工程世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。