芯原查凯南:NPU如何推进嵌入式智能设备发展

发布时间:2024-06-13  

6月13日,在芯原AI专题技术研讨会上,芯原NPU IP研发副总裁查凯南表示:“大模型对于现在最大的颠覆性在于,端侧模型和云端模型可以通过自然语言进行交互,显著提升智能效果。”


不过,云端和边端的分工有所不同。云端大多使用的是超级大模型,通常在70B以上,可能需要几百甚至几千张卡进行计算,同时云端能够同时胜任大模型的推理和训练任务。边端在算力、容量限制下,基本是在2B~13B的规模,除了语言模型,端侧还需要许多其它模型,比如视觉模型、语音模式、通用模型、图像生成、美图、PPT生成。


因此,为了满足端侧和云端的不同需求,NPU设计要求有所不同。端侧更关注低功耗、PPA(性能、功耗、面积)优化以及更好的隐私性,主要用于推理,同时需要具备浮点运算能力,重点在于低比特的量化及压缩能力。而云端则需要高性能、高TOPS(每秒万亿次运算)能力,进行分布式的推理和训练,要求较高的浮点和定点算力比例,以及高精度计算能力,同时,云端还需要与大型生态系统的兼容性。


端侧方面芯原拥有VIP9X00和GC9XX00AI AI-GPU IP,云侧则拥有CCTC-MP Tensor Core GPU IP。其中端侧的NPU IP能够高效地处理各类神经网络和计算任务,最小化数据传输,成为推动嵌入式智能设备发展的关键要素。



芯原的NPU主要分为DSA、嵌入式系统、数据中心三个方向。



值得一提的是,这些NPU IP基于GPU架构体系进行优化,利用可编程、可扩展及并行处理能力,为各类主流AI算法提供硬件加速的微处理器技术。



最新一代的芯原VIP9000系列NPU IP具备可扩展的高性能处理能力,适用于Transformer和卷积神经网络(CNN)。


此外,VIP9000系列还融合了4位量化和压缩技术,以解决带宽限制问题,方便在嵌入式设备上部署生成式人工智能(AIGC)和大型语言模型(LLM)算法,如Stable Diffusion和Llama 2。



在过去两年中,Transformer已经成为主导模型,不仅在大语言模型上表现出色,在视觉、语音、Pixel等领域表现优异,相对传统卷积神经网络,效果提升明显。


芯原的架构则针对Transformer进行了定制优化,最新的IP包含了针对Transformer的特定优化,包括4bit、8bit、16×4、16×8的量化压缩,显著减少了带宽的消耗。


对于通用运算的GEMM/GEMV以及矩阵运算中,在一个具有40~48TOPS算力的AIPC中,其性能可以提升10倍。


经过优化,芯原的NPU在Stable diffusion 1.5中,能够达到20 steps under 2 seconds,在LLaMA2 7B中能够达到20 Tokens/s,性能相当出色。



软件生态对于AI的发展至关重要,芯原则提供了非常通用的软件栈,配备了广泛成熟的软件开发工具包(SDK),支持各大深度学习框架,确保客户产品能够迅速投放市场。


在应用层,芯原支持PyTorch、Transformer、ONNXRuntime等框架。在工具方面,VLLM是芯原研发的专用于大语言模型的框架,特别适用于云端。结合芯原的Acuity工具包,芯原的NPU IP支持PyTorch、ONNX和TensorFlow等主流框架。



Triton是OpenAI发明的一种高级编译语言,芯原也计划支持Triton,芯原计划在2024年10月完成对Triton的完整接入,以实现开放式的高级语言支持。


值得一提的是,通过利用芯原的FLEXA技术,VIP9000可无缝集成于芯原的图像信号处理器(ISP)及视频编码器,实现低延迟的AI-ISP和AI-Video子系统,且无需DDR内存。此外,还可根据特定需求定制,以平衡成本和灵活性,适应对功耗和空间有严格限制的深度嵌入式应用环境。


目前,采用芯原NPU IP的IA类芯片已经在全球出货超过1亿颗,客户72家,推出AI SoC 128款,市场领域超过10个。

文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>