人工智能(AI)创新计算解决方案的新创企业Cerebras Systems表示,目前人脑包含大约100万亿个神经元的突触,但现阶段最大的AI硬件丛集大约为人类大脑规模的1%,或约1万亿个神经元突触量,这称为参数。而这些AI硬件中的处理器集群虽仅为人类大脑规模的一小部分,却占用了数英亩的空间和数兆瓦的功率,并且需要专门的团队进行操作。基于以上的因素,Cerebras Systems于北京时间24日推出了世界上第一个人类大脑级AI解决方案,能用以支持超过120万亿个参数的运算模型。
Cerebras Systems强调,世界上第一个人类大脑级AI解决方案是使单个有如小型冰箱大小,内含CS-2运算系统的AI硬件系统能够支持超过120万亿个参数的模型。在此其中,Cerebras Systems采用了4项业界领先的创新技术,包括Cerebras Weight Streaming一种新的软件执行架构、Cerebras MemoryX一种内部内存扩展技术、Cerebras SwarmX一种高性能互连结构技术、以及Selectable Sparsity一种动态收集技术。
首先在Cerebras Weight Streaming技术上,首次达成了在芯片外储存模型参数的能力,同时提供与芯片上相同的训练和推理性能。这种新的执行模型分解了计算和参数储存,允许研究人员独立灵活地扩展规模和速度,并消除了挑战大型小型处理器丛集的延迟和内存带宽问题。这些设计极大的简化了工作负载分配模型,其设计目的是让用户可以从使用1个CS-2运算系统,或扩展到最多192个CS-2运算系统,而无需变更软件。
其次,Cerebras MemoryX是一种内存扩展技术。MemoryX将提供高达2.4PB的高性能存储器。透过MemoryX,CS-2运算系统可以支持具有多达120万亿参数模型。至于Cerebras SwarmX则是是一种高性能、人工智能优化的通信结构,其目的是使得Cerebras Systems能够在最多192个CS-2运算系统上连接多达1.63亿个AI优化核心,以进一步协同工作以训练单个神经网络。
最后,Selectable Sparsity技术是使用户能够在他们的模型中选择权重稀疏程度,并直接减少浮点运算的耗费时间(FLOPs)和解决时间。权重稀疏(weight sparsity)是机器学习研究的一个重要的领域,由于它在图形处理单元上的效率极低,因此过去一直难以突破发展。如今,通过可选择权重稀疏性使CS-2运算系统能够加速工作,并使用每种可用类型的稀疏性,包括非结构化和动态权重稀疏性,以在更短的时间内生成答案。
透过这些技术的组合,Cerebras Systems表示,将使用户能够轻松地解锁大脑规模的神经网络,并将工作分配到大量人工智能优化的核心集群上。而这也使得Cerebras Systems能在模型大小、计算集群能力和大规模编程的简单性方面设定了新的基准。
至于,在整个系统核心的Cerebras CS-2人工运算系统的核心部分,则是由Wafer Scale Engine(WSE-2)处理器来提供动力。这是款有史以来最大的芯片和最快的AI处理器,由晶圆代工龙头台积电7纳米制程来进行打造生产。WSE-2是具有2.6万亿个晶体管和850000个AI优化核心的单个晶圆级芯片。相比之下,当前最大的图形处理单元只有540亿个晶体管,比WSE-2少了2.55万亿个晶体管。WSE-2还拥有比图形处理单元竞争对手多123倍的核心和1000倍的高性能内置内存。
而由于WSE-2处理器的大小,因此特别适用于Cerebras架构。与图形处理单元不同,因为在这种传统架构下,少量的芯片上内存需要跨多个芯片对大型模型进行分区运算,但WSE-2处理器可以适应和执行非常大的层面,而无需进行传统的屏断或分区来执行运算。另外,在芯片上异植内存的方式,则是适合每个模型层而不需要分区的能力,这代表着每个CS-2运算系统可以被赋予相同的神经网络工作负载,并对每一层进行相同的计算,独立整个于网络当中。而其对于用户来说,这种简单性允许他们将模型从在单个CS-2运算系统上运行扩展到任意大小的集群上,而无需任何软件更改。
封面图片来源:拍信网