【导读】ChatGPT大热,生成式大模型已无限趋向通用智能,这也就意味着AI应用将会进入到2.0时代。所谓AI 2.0时代,即由AI将由很多小模型提供的弱AI,演进为由大模型提供的通用智能强AI,这势必会带来众多应用场景的集体爆发。
业内人士认为,爆发将主要来于:一是来自于替代,原先很多有小模型提供的弱AI的场景将会由通用智能来替代;二是将催生新的AI应用场景,并产生新的服务和产品形态。
这些未来应用场景的爆发,对AI算力芯片是一个新挑战,要有更大的算力以及更高的能效比。由此,亿铸智能副总裁徐芳认为:存算一体的大算力芯片将是中国AI芯片“换道”超车的机会。
存算一体AI芯片或将成为自动驾驶算力终极解决方案
ChatGPT的火爆预示了自动驾驶的发展方向:大模型和高算力。Transformer这类神经网络大模型,模型运算量平均每两年会翻750倍;视频、自然语言处理和语音模型,模型运算量平均每两年翻15倍。可以预见,摩尔定律将面临失效,同时 "存储墙”和"功耗墙” 将成为AI芯片发展的关键制约因素。
目前,大部分传统的计算架构是冯诺依曼架构,优点是非常灵活,但面对AI遇到的问题是出现算力瓶颈,同时存在大型数据搬运,所以带来很大的功耗消耗。
存算一体技术有望解决大算力与低功耗的矛盾。存算一体,是指在存储器中对数据进行运算,从而避免数据搬运产生的"存储墙”和"功耗墙”, 极大提高数据的并行度和能量效率。
在汽车领域,高等级自动驾驶汽车某种意义上将成为行走的超算中心,车端算力正不断拔高到1000TOPS以上。云端计算电力充足,并可以通过冷却系统制冷,但是在汽车端是通过电池供电有限,同时面临着液冷散热、成本方面等问题。
存算一体 AI 芯片,将为车企提供一个全新的技术路径选择。
在自动驾驶 SoC 领域,后摩智能是国内首家存算一体自动驾驶 AI 芯片厂商,其在2022年成功点亮了业内第一款存算一体大算力AI芯片,并跑通智能驾驶算法模型。这款验证样片采用22nm工艺制程,算力达20TOPS,可扩展至200TOPS,尤其是计算单元能效比高达20TOPS/W。
当前,国内AI大算力芯片有两个主要技术方向,一就是ASIC架构,采用该架构的公司包括了寒武纪、华为、黑芝麻,地平线等;另一个就是GP GPU架构,就是英伟达所主导的GP GPU路线。这两个架构,存与算是分离的。她从技术层面解释说,“就技术本身而言,存算分离的架构下,85~90%的芯片空间,是用于数据搬运,而不是用来进行数据的计算。也就是先要把数据从存储的结构里面要搬到计算单元,而且是每计算一次就要搬运一次,最后计算的结果,又送回至存储的结构中。如此往复,这种架构,显而易见,对能源的消耗和计算效率的影响非常大。”
当然,徐芳副总裁也认为,“并不能用零和博弈的方式看所有的技术,每一种技术都有它的价值, ASIC、GP GPU以及存算一体的技术,各有所长,如果能竞合得当,可实现相得益彰。”
但就面向未来而言,徐芳副总裁指出,从能效比、对先进工艺制程的依赖、以及算力的发展空间这三方面来看,AI算力芯片中,存算一体的计算架构无疑会有更大更好的机会。据了解,业内头部企业也提出了类似的方案,AMD在今年初,提出了存内计算;三星也认为,存储器在人工智能服务器中的重要性将会超过英伟达的GPU。
她强调,“AI算力芯片,除了有较高的能效比之外,还需要更好的性价比并兼顾通用性,此外,在中国AI大算力芯片发展,还要能够解决先进工艺依赖这一外部问题。”
徐芳副总裁进而指出,“存算一体的技术架构,其优势在于既能够用传统的CMOS工艺,又能够快速实现量产,进而突破AI芯片的算力困境。”也是从这里来观察,存算一体的大算力芯片也将是中国在算力芯片领域换道超车的机会。
存算一体芯片“最后七公里”
尽管存算一体在技术层面能够支撑芯片产业出现新机会,但要真正创业做新业务却没有那么容易。在吴强看来,存算一体还有“最后七公里”要走。
“学术上实现的是从无到有的过程,但要应用在商业,还需要先补齐技术的可实现性这两公里,再补上应用到具体场景的工程性问题这五公里。”
具体而言,在这款芯片的定义、设计过程中,也经过了不少讨论和取舍。
例如,存算一体技术依托的存储类型非常丰富,包括以SRAM、DRAM为代表的易失性存储器,以Flash为代表的非易失性存储器,还有以MRAM和RRAM为代表的新型非易失性存储器。后摩当前选择了制作工艺更为成熟的SRAM。
又如,从电路技术来看,存内计算有数字计算和模拟计算两种,后摩首先选择了运算精度更高、可靠性更好的数字存算。
但对吴强来说,这都是综合市场需求和技术可行性之后的更优选择,后摩当下战略聚焦于智能驾驶芯片,更大的有效算力、更高的可靠性都是为目标芯片服务的。
只不过,摸着石头过河,确实要面临比同行更多的挑战。
比如在电路的仿真验证中,一般用EDA软件进行在线的设计,而后用可编程的FPGA进行电路设计的验证。但是,后摩智能的芯片设计规模已经超过了市面上任何一个可以找到的FPGA,要怎么做芯片验证呢?
后摩智能想到把芯片的不同功能进行切割,在不同的FPGA上进行验证。关于如何把芯片做合理的剪裁以适应部分的验证,后摩团队反复讨论、多次尝试,最终找到了最恰当的方法。
最终,后摩智能交上了鸿途H30这份答卷,相比业界先进的7nm工艺,后摩采用了更成熟的12nm工艺,但功耗比前者减少了50%,性能有两倍以上的提升。
经纬创投投资董事童倜认为,除了存算一体技术上有巨大的优势之外,“后摩团队的优势还在于团队的人员构成非常完善,在很早就拥有了存算一体相关领域的学术专家、曾经量产过大算力AI芯片的人,和设计过车规芯片的人”。
在童倜看来,尤为难得的是,在创立之初,后摩团队就已经对所在的赛道、市场需求有了清醒的认知,也对整个芯片研发及企业经营中可能会遇到的问题有了一定的预期和规划。
这或许要归功于吴强及后摩团队过往在芯片行业丰富的从业经验,有十年以上芯片行业的工作经验的研发人员占比很高,经历过车规芯片量产和导入的初创企业奋斗全过程的员工也不在少数,他们能够深刻理解研发组织、客户沟通等的重要性。
未来,芯片将成为大型主机厂重要投资方向
主机厂造芯这个问题争议极大,业内普遍认为,一方面主机厂无法与专业IC设计公司比拼开发速度、效率、产品性能等,另一方面单颗芯片至少应有百万量级的出货量才能不断摊薄开发成本,以具备性价比。
但实际上芯片对于智能网联新能源汽车,无论是性能、成本、还是供应链安全,都已占据了绝对的主导地位,传统燃油车芯片需求量一般在700-800颗/辆,新能源车芯片需求量在1500-2000颗/辆,高级别自动驾驶新能源车芯片需求量可高达3000颗/辆,且部分高价值芯片成本高昂、面临缺货甚至断货风险。
从大型主机厂的角度,显然不想被某家芯片厂商绑定,甚至主机厂早已开始下场自主造芯。从吉利汽车来看, 吉利已实现7nm座舱SoC量产装车,IGBT也已实现成功流片,亿咖通和芯擎科技合作研发的自动驾驶SoC芯片AD1000预计最快到2024年3月流片。
我们判断,芯片将像动力电池一样,成为大型主机厂加强底层基础能力建设的重要投资方向。2022年,三星宣布将为谷歌自动驾驶部门Waymo制造芯片;通用Cruise也宣布将自主开发自动驾驶芯片;大众汽车则宣布将与中国自动驾驶SoC厂商地平线成立合资公司。
在2022中国电动汽车百人会论坛上,地平线在“芯片+算法+工具链+开发平台”的商业模式基础上,增加开放其高性能自动驾驶处理器架构BPU IP授权,以此来满足自研能力强的部分车企的需求,从而增加车企的差异化竞争力和研发创新的速度。
作为IP供应商支撑车企自研计算方案,BPU IP授权模式已确认一家合作伙伴,还有一家车企正在推进中。
造芯的技术门槛并不算特别高,主要门槛是拥有足够资本实力和订单量,现在芯片行业就是外购IP搭积木的方式来搭芯片,包括CPU、GPU、NPU、存储、NoC或总线、ISP、视频编解码等。未来随着Chiplet生态圈、工艺水平不断完善,自研自动驾驶SoC芯片门槛会更低,无需买IP,直接买die(IP芯片化)然后再封装即可,大幅度降低门槛。
以特斯拉HW 3.0芯片为例,其架构设计基于三星Exynos-IP,CPU、GPU、ISP设计采用ARM IP,片上互联(NOC)采用 Arteris IP,特斯拉仅自研 NNA AI加速器IP,最终由三星代工。
针对HW 4.0芯片,特斯拉进一步与博通合作开发,为了提高AI算力,最简单有效的办法就是堆砌MAC单元和 SRAM存储器, 对于AI操作来说,主要瓶颈是存储。而缺陷在于,SRAM存储器占用了大量的芯片面积,面积与芯片的成本成正比,同时SRAM难以通过先进制程工艺来增加密度和减少面积。
因此,特斯拉第一代FSD HW 3.0裸芯片面积为260平方毫米,第二代FSD HW 4.0裸芯片面积预计为300平方毫米,总成本预计至少增加40-50%,按照我们的估算,HW3.0芯片成本已降至90-100美元,而HW 4.0成本应在150-200美元,但即使如此,特斯拉自研芯片的性价比也要远远高于外购。
长期来看,百万以上销量的主机厂自主“造芯”是可行的。
来源:贤集网
免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理。
推荐阅读: