芯原查凯南：NPU如何推进嵌入式智能设备发展

发布时间: 2024-06-13

来源: 电子工程世界

6月13日，在芯原AI专题技术研讨会上，芯原NPU IP研发副总裁查凯南表示：“大模型对于现在最大的颠覆性在于，端侧模型和云端模型可以通过自然语言进行交互，显著提升智能效果。”

不过，云端和边端的分工有所不同。云端大多使用的是超级大模型，通常在70B以上，可能需要几百甚至几千张卡进行计算，同时云端能够同时胜任大模型的推理和训练任务。边端在算力、容量限制下，基本是在2B～13B的规模，除了语言模型，端侧还需要许多其它模型，比如视觉模型、语音模式、通用模型、图像生成、美图、PPT生成。

因此，为了满足端侧和云端的不同需求，NPU设计要求有所不同。端侧更关注低功耗、PPA（性能、功耗、面积）优化以及更好的隐私性，主要用于推理，同时需要具备浮点运算能力，重点在于低比特的量化及压缩能力。而云端则需要高性能、高TOPS（每秒万亿次运算）能力，进行分布式的推理和训练，要求较高的浮点和定点算力比例，以及高精度计算能力，同时，云端还需要与大型生态系统的兼容性。

端侧方面芯原拥有VIP9X00和GC9XX00AI AI-GPU IP，云侧则拥有CCTC-MP Tensor Core GPU IP。其中端侧的NPU IP能够高效地处理各类神经网络和计算任务，最小化数据传输，成为推动嵌入式智能设备发展的关键要素。

芯原的NPU主要分为DSA、嵌入式系统、数据中心三个方向。

值得一提的是，这些NPU IP基于GPU架构体系进行优化，利用可编程、可扩展及并行处理能力，为各类主流AI算法提供硬件加速的微处理器技术。

最新一代的芯原VIP9000系列NPU IP具备可扩展的高性能处理能力，适用于Transformer和卷积神经网络（CNN）。

此外，VIP9000系列还融合了4位量化和压缩技术，以解决带宽限制问题，方便在嵌入式设备上部署生成式人工智能（AIGC）和大型语言模型（LLM）算法，如Stable Diffusion和Llama 2。

在过去两年中，Transformer已经成为主导模型，不仅在大语言模型上表现出色，在视觉、语音、Pixel等领域表现优异，相对传统卷积神经网络，效果提升明显。

芯原的架构则针对Transformer进行了定制优化，最新的IP包含了针对Transformer的特定优化，包括4bit、8bit、16×4、16×8的量化压缩，显著减少了带宽的消耗。

对于通用运算的GEMM/GEMV以及矩阵运算中，在一个具有40～48TOPS算力的AIPC中，其性能可以提升10倍。

经过优化，芯原的NPU在Stable diffusion 1.5中，能够达到20 steps under 2 seconds，在LLaMA2 7B中能够达到20 Tokens/s，性能相当出色。

软件生态对于AI的发展至关重要，芯原则提供了非常通用的软件栈，配备了广泛成熟的软件开发工具包（SDK），支持各大深度学习框架，确保客户产品能够迅速投放市场。

在应用层，芯原支持PyTorch、Transformer、ONNXRuntime等框架。在工具方面，VLLM是芯原研发的专用于大语言模型的框架，特别适用于云端。结合芯原的Acuity工具包，芯原的NPU IP支持PyTorch、ONNX和TensorFlow等主流框架。

Triton是OpenAI发明的一种高级编译语言，芯原也计划支持Triton，芯原计划在2024年10月完成对Triton的完整接入，以实现开放式的高级语言支持。

值得一提的是，通过利用芯原的FLEXA技术，VIP9000可无缝集成于芯原的图像信号处理器（ISP）及视频编码器，实现低延迟的AI-ISP和AI-Video子系统，且无需DDR内存。此外，还可根据特定需求定制，以平衡成本和灵活性，适应对功耗和空间有严格限制的深度嵌入式应用环境。

目前，采用芯原NPU IP的IA类芯片已经在全球出货超过1亿颗，客户72家，推出AI SoC 128款，市场领域超过10个。

文章来源于: 电子工程世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。