6月13日,在芯原AI专题技术研讨会上,芯原NPU IP研发副总裁查凯南表示:“大模型对于现在最大的颠覆性在于,端侧模型和云端模型可以通过自然语言进行交互,显著提升智能效果。”
不过,云端和边端的分工有所不同。云端大多使用的是超级大模型,通常在70B以上,可能需要几百甚至几千张卡进行计算,同时云端能够同时胜任大模型的推理和训练任务。边端在算力、容量限制下,基本是在2B~13B的规模,除了语言模型,端侧还需要许多其它模型,比如视觉模型、语音模式、通用模型、图像生成、美图、PPT生成。
因此,为了满足端侧和云端的不同需求,NPU设计要求有所不同。端侧更关注低功耗、PPA(性能、功耗、面积)优化以及更好的隐私性,主要用于推理,同时需要具备浮点运算能力,重点在于低比特的量化及压缩能力。而云端则需要高性能、高TOPS(每秒万亿次运算)能力,进行分布式的推理和训练,要求较高的浮点和定点算力比例,以及高精度计算能力,同时,云端还需要与大型生态系统的兼容性。
端侧方面芯原拥有VIP9X00和GC9XX00AI AI-GPU IP,云侧则拥有CCTC-MP Tensor Core GPU IP。其中端侧的NPU IP能够高效地处理各类神经网络和计算任务,最小化数据传输,成为推动嵌入式智能设备发展的关键要素。
芯原的NPU主要分为DSA、嵌入式系统、数据中心三个方向。
值得一提的是,这些NPU IP基于GPU架构体系进行优化,利用可编程、可扩展及并行处理能力,为各类主流AI算法提供硬件加速的微处理器技术。
最新一代的芯原VIP9000系列NPU IP具备可扩展的高性能处理能力,适用于Transformer和卷积神经网络(CNN)。
此外,VIP9000系列还融合了4位量化和压缩技术,以解决带宽限制问题,方便在嵌入式设备上部署生成式人工智能(AIGC)和大型语言模型(LLM)算法,如Stable Diffusion和Llama 2。
在过去两年中,Transformer已经成为主导模型,不仅在大语言模型上表现出色,在视觉、语音、Pixel等领域表现优异,相对传统卷积神经网络,效果提升明显。
芯原的架构则针对Transformer进行了定制优化,最新的IP包含了针对Transformer的特定优化,包括4bit、8bit、16×4、16×8的量化压缩,显著减少了带宽的消耗。
对于通用运算的GEMM/GEMV以及矩阵运算中,在一个具有40~48TOPS算力的AIPC中,其性能可以提升10倍。
经过优化,芯原的NPU在Stable diffusion 1.5中,能够达到20 steps under 2 seconds,在LLaMA2 7B中能够达到20 Tokens/s,性能相当出色。
软件生态对于AI的发展至关重要,芯原则提供了非常通用的软件栈,配备了广泛成熟的软件开发工具包(SDK),支持各大深度学习框架,确保客户产品能够迅速投放市场。
在应用层,芯原支持PyTorch、Transformer、ONNXRuntime等框架。在工具方面,VLLM是芯原研发的专用于大语言模型的框架,特别适用于云端。结合芯原的Acuity工具包,芯原的NPU IP支持PyTorch、ONNX和TensorFlow等主流框架。
Triton是OpenAI发明的一种高级编译语言,芯原也计划支持Triton,芯原计划在2024年10月完成对Triton的完整接入,以实现开放式的高级语言支持。
值得一提的是,通过利用芯原的FLEXA技术,VIP9000可无缝集成于芯原的图像信号处理器(ISP)及视频编码器,实现低延迟的AI-ISP和AI-Video子系统,且无需DDR内存。此外,还可根据特定需求定制,以平衡成本和灵活性,适应对功耗和空间有严格限制的深度嵌入式应用环境。
目前,采用芯原NPU IP的IA类芯片已经在全球出货超过1亿颗,客户72家,推出AI SoC 128款,市场领域超过10个。