21ic 获悉,昨天 Meta 宣布将推出第一代自研的 推理加速(MTIA v1)以满足 Meta 内部 AI 开发与应用的需要,MTIA v1 芯片在架构方面由 PE 运算单元、片上缓存、片外缓存、传输接口、控制单元等组成。
据悉,该芯片是一款于 2020 年开始设计的 ASIC 芯片,通过编程可同时执行一项或多项任务,采用台积电 7nm 制程工艺打造,运行频率为 800MHz,TDP 为 25W,INT8 整数运算能力为 102.4 TOPS,FP16 浮点数运算能力为 51.2 TFLOPS,预计将于 2025 年推出。
该芯片在元训练和推理加速器上备了运行系统固件的专用控制子系统,固件管理可用的计算和内存资源,通过专用主机接口与主机通信,并协调加速器上的作业执行。内存子系统使用 LPDDR5 作为片外 DRAM 资源,可扩展至 128 GB。该芯片还有 128 MB 的片上 SRAM,由所有 PE 共享,为频繁访问的数据和指令提供更高的带宽和更低的延迟。
此外,该网格包含以 8x8 配置组织的 64 个 PE。PE 相互连接,并通过网状网络连接到内存块。网格可以作为一个整体来运行一个作业,也可以分成多个可以运行独立作业的子网格。
每个 PE 配备两个处理器内核(其中一个配备矢量扩展)和一些固定功能单元,这些单元经过优化以执行关键操作,例如矩阵乘法、累加、数据移动和非线性函数计算。处理器内核基于 RISC-V 开放指令集架构 (ISA),并经过大量定制以执行必要的计算和控制任务。
每个 PE 还具有 128 KB 的本地 SRAM 内存,用于快速存储和操作数据。该架构最大限度地提高了并行性和数据重用性,这是高效运行工作负载的基础。该提供线程和数据级并行性(TLP 和 DLP),利用指令级并行性 (ILP),并通过允许同时处理大量内存请求来实现大量的内存级并行性 (MLP)。
Meta 官网表示,AI 工作负载在 Meta 中无处不在,构成了广泛用例的基础,包括内容理解、Feed、生成 和广告排名。这些工作负载在 PyTorch 上运行,具有一流的 Python 集成、急切模式开发和 API 的简单性。
深度学习推荐模型 ( DLRM ) 对于改善跨 Meta 服务和应用程序的体验尤其重要。但随着这些模型的规模和复杂性增加,底层硬件系统需要提供呈指数级增长的内存和计算能力,同时保持高效。
对于以 Meta 规模所需的效率水平运行的特定推荐工作负载,GPU 并不总是最佳选择。我们应对这一挑战的解决方案是设计一系列特定于推荐的元训练和推理加速器 (MTIA) ASIC。Meta 根据下一代推荐模型的要求共同设计了第一代 ASIC,并将其集成到 PyTorch 中以创建一个完全优化的排名系统。
此外,Meta 声称保持了 PyTorch 急切模式开发提供的用户体验和开发人员效率。随着继续支持 PyTorch 2.0,开发人员效率是一段旅程,它增强了 PyTorch 在编译器级别(引擎下)的运行方式。