Kinara推出Ara-2边缘AI 处理器,为边缘服务器和笔记本电脑提供高性能、经济高效且节能的推理,以运行视频分析、大型语言模型 (LLM) 和其他生成 AI 模型等应用程序。
Ara-2 还非常适合运行传统 AI 模型和具有基于 Transformer 架构的最先进 AI 模型的边缘应用程序。Ara-2 Edge AI 处理器具有体验式增强功能集,性能是第一代 Ara-1 处理器的5-8 倍以上,将实时响应能力与高吞吐量相结合,将其经过验证的延迟优化设计与完美平衡的性能相结合。片上存储器和高片外带宽能够以极低的延迟执行大型模型。
生成式人工智能总体上已经变得非常流行,但大多数相关应用程序都在数据中心的 GPU 上运行,面临着高延迟、高成本和隐私问题。为了克服这些限制并将计算能力真正交到用户手中,Ara-2 通过支持这些生成式 AI 模型使用的数十亿个参数,简化了向边缘的过渡。此外,为了无缝地促进从昂贵的 GPU 迁移到各种 AI 模型,Ara-2 中的计算引擎和相关的软件开发套件 (SDK) 专门设计用于支持高精度量化、动态调节的主机运行时,并直接支持 FP32。
“随着 Ara-2 添加到我们的处理器系列中,我们可以更好地为客户提供性能和成本选项,以满足他们的要求。例如,Ara-1 是智能相机以及具有 2-8 个视频流的边缘 AI 设备的适合方案,而 Ara-2 非常适合处理输入边缘服务器以及笔记本电脑的 16-32+ 视频流,另外还包括高端相机。”Kinara 首席执行官 Ravi Annavajjhala 说道。“Ara-2 通过使用其先进的计算引擎更快地处理更高分辨率的图像,并且精度显着提高,从而实现更好的对象检测、识别和跟踪。作为处理生成式 AI 模型的能力的一个例子,Ara-2 执行Stable Diffution速度可以达到10 秒生成一张图片,LLaMA-7B 的速度可以达到每秒数十个token。”
10 月,Ampere 欢迎 Kinara 加入人工智能平台联盟,其主要目标是降低系统复杂性,促进人工智能更好的协作和开放性,最终提供比 GPU 更好的总体性能以及更高的功耗和成本效率。Ampere 的首席布道师 Sean Varley 表示:“Kinara 的 Ara-2 的性能和功能集是朝着正确方向迈出的一步,有助于我们为行业带来比基于 GPU 的现状更好的人工智能替代方案。”
Ara-2 Edge AI 处理器还提供安全启动、加密内存访问和安全主机接口,使企业 AI 部署具有更高的安全性。Kinara 还通过全面的 SDK 支持 Ara-2,其中包括模型编译器和计算单元调度程序、灵活的量化选项(包括集成的 Kinara 量化器)以及对预量化 PyTorch 和 TFLite 模型的支持、多芯片负载均衡器系统和动态调节的主机。
Ara-2 可用作独立设备、USB 模块、M.2 模块和具有多个 Ara-2 的 PCIe 卡等多种形式。Kinara 将在 CES 上展示 Ara-2 的现场演示。
相关文章