CEVA推出增强型NeuPro-M NPU IP系列,大力推动生成式人工智能 (Generative AI)
NeuPro-M提供业界领先的350 TOPS/Watt性能,以卓越的成本和能效为基础设施、
工业、汽车、PC、消费产品和移动市场带来强大的生成式人工智能(Generative AI)
全球领先的无线连接、智能感知技术及定制SoC解决方案的授权许可厂商CEVA, Inc.宣布推出增强型NeuPro-M NPU系列,以业界领先的性能和能效满足下一代生成式人工智能(Generative AI)的处理需求,适用于从云端到边缘的各类别的人工智能推理工作负载。NeuPro-M NPU架构和工具经过重新设计,除支持CNN和其他神经网络外,还支持transformer网络,并支持未来的机器学习推理模型,因而能够在通信网关、光连接网络、汽车、笔记本电脑和平板电脑、AR/VR头戴式设备、智能手机以及任何其他云端或边缘使用案例中,基于NeuPro-M NPU进行无缝开发和运行高度优化的应用,充分利用生成式人工智能和传统人工智能的功能。
CEVA副总裁兼视觉业务部门总经理Ran Snir 评论道:“基于transformer的网络需要大量增加计算和内存资源以推动生成式人工智能,从而要求新的方法和优化的处理架构来满足这股计算和内存需求的增长。我们的 NeuPro-M NPU IP经过专门设计,高效、低成本地处理当前和未来的传统人工智能和生成式人工智能工作负载。这款IP具有可扩展性,可处理从边缘到云端的用例,并可以在未来支持新的推理模型。我们利用这款架构实现了性能飞跃,为各种使用案例带来了美好的生成式人工智能前景,涵盖从成本敏感的边缘设备到高效的云计算,以及两者之间的所有应用。”
市场研究机构ABI Research预测,边缘人工智能出货量将从2023年的24亿台增长到2028年的65亿台,年均复合增长率(CAGR)为22.4%*。生成式人工智能将是支撑增长的重要力量,而日益复杂的智能边缘应用正在推动对更强大、更高效的人工智能推理技术的需求。特别地,虽然生成式人工智能中使用的大型语言模型(LLM)以及视觉和音频transformer能够改变产品和行业,但在边缘设备上运行时,将会对性能、功耗、成本、延迟和内存带来新的挑战。
ABI Research高级分析师Reece Hayden表示:“如今,生成式人工智能的硬件市场高度集中,少数几家厂商占据主导地位。为了兑现技术承诺,在云端和边缘领域都需要明确的路径去实现更低功耗、更低成本推理处理,这将通过更小的模型尺寸和更高效的硬件来实现。CEVA的NeuPro-M NPU IP是别具吸引力的方案,能够在设备上部署具有出色功耗预算的生成式人工智能,同时具有可扩展性,使得NeuPro-M能够满足网络设备及其他设备中更多的性能密集型用例。
受益于推理和建模技术的不断发展,人们在设备层面可以利用更小的特定领域LLM、视觉transformer和其他生成式人工智能模型的新功能,相应地,这将改变基础设施、工业、汽车、PC、消费产品和移动市场的应用。最重要的是,由于集成了矢量处理单元(VPU),增强型NeuPro-M 架构具有高度通用性和面向未来的可扩展性,可支持未来的任何网络层。此外,这款架构还支持任何激活函数和任何数据流,具有数据和权重的真正稀疏性,最高可将处理性能提升 4 倍,使得客户能够使用单一 NPU 系列满足多种应用和多个市场的需求。为了实现多样化人工智能市场所需的更大可扩展性,NeuPro-M增加了全新的 NPM12 和 NPM14 NPU 内核,分别具有两个和四个NeuPro-M引擎,可轻松提供更高性能人工智能工作负载。增强型 NeuPro-M 系列目前包括四款NPU,分别是NPM11、NPM12、NPM14和NPM18。NeuPro-M具有多功能性以及卓越的性能和能效,成为当今业界领先的 NPU IP产品,在 3nm 工艺节点上可实现 350 TOPS/Watt 峰值性能,在基于transformer的LLM 推理中,每瓦每秒可处理超过 150 万个token。
CEVA为增强型NeuPro-M架构提供经过改进的综合开发工具链,它基于CEVA屡获殊荣的神经网络AI 编译器CDNN,具有架构感知功能,可充分利用NeuPro-M并行处理引擎,最大限度地提高客户的AI应用性能。CDNN软件包括一个内存管理器,用于降低内存带宽和优化负载平衡算法,并兼容包括TVM和ONNX的常见开源框架。
供货
NPM11 NPU IP现已全面上市,可供客户部署使用。CEVA向主要客户提供NPM12、NPM14 和 NPM18。