近日,英特尔宣布推出全球最大的代号为Hala Point的神经拟态系统(neuromorphic system),最初布署在桑迪亚国家实验室,基于英特尔Loihi 2神经拟态处理器构建,旨在支持类脑AI领域的前沿研究,解决AI目前在效率和可持续性等方面的挑战。
英特尔实验室神经拟态计算实验室主任Mike Davies表示:“当下AI模型的算力成本正在以不可持续的速度上升,行业需要规模扩展的全新方法。为此我们开发了Hala Point,它将深度学习的高效与新颖的类脑学习和优化能力结合在一起,我们希望通过对Hala Point的研究,能在大规模AI技术的效率和适应性方面有所推进与突破。”
作为从大学中孵化的项目,2017年英特尔就发布了其首款神经拟态芯片Loihi,并以USB dongel形式提供给 40 多个学术研究小组用于研究目的。
此次发布Hala Point,对神经拟态领域意味着什么?日前,英特尔中国研究院院长宋继强给予了详细解读。
Hala Point是什么?
Hala Point系统由封装在一个六机架的数据中心机箱中的1152个Loihi 2处理器组成,大小相当于一个微波炉。包含12块板,每块板上有96颗芯片,该系统支持分布在140544个神经形态处理内核上的多达11.5亿个神经元和1280亿个突触,最大功耗仅为2600瓦。Hala Point还包括2300多个嵌入式x86处理器,用于辅助计算。
在大规模的并行结构中,Hala Point集成了处理器、内存和通信通道,内存带宽达每秒16PB,内核间的通信带宽达每秒3.5PB,芯片间的通信带宽达每秒5TB。该系统每秒可处理超过380万亿次8位突触运算和超过240万亿次神经元运算。
Hala Point有多厉害?
在英特尔第一代大规模研究系统Pohoiki Springs的基础上,Hala Point改进了架构,将神经元容量提高了10倍以上,性能提高了12倍。
在执行AI推理负载和处理优化问题时, Loihi 2神经拟态芯片系统的速度比常规CPU和GPU架构快50倍,同时能耗降低了100倍。早期研究结果表明,通过利用稀疏性高达10比1的稀疏连接(sparse connectivity)和事件驱动的活动,Hala Point运行深度神经网络的能效比高达15 TOPS/W,同时无需对输入数据进行批处理。批处理是一种常用于GPU的优化方法,会大幅增加实时数据(如来自摄像头的视频)处理的延迟。尽管仍处于研究阶段,但未来的神经拟态大语言模型将不再需要定期在不断增长的数据集上再训练,从而节约数千兆瓦时的能源。
宋继强说道,相比于Pohoiki Springs(此前推出的系统,包含768颗Loihi1)系统,尺寸从5U增加到了6U,但是神经元总数从1亿增加到了11.5亿,扩充了10倍。考虑到人脑800多亿神经元的,Hala Point系统已经达到了人脑的1/80。
在用于仿生脉冲神经网络模型时,Hala Point能够以比人脑快20倍的实时速度运行其全部11.5亿个神经元,在运行神经元数量较低的情况下,速度可比人脑快200倍。虽然Hala Point并非用于神经科学建模,但其神经元容量大致相当于猫头鹰的大脑或卷尾猴的大脑皮层。
Hala Point的意义
宋继强解释道,通过Hala Point,英特尔证明了其可以保证11.5亿个神经元彼此高效可靠的互联。
在神经拟态系统的规模化验证上,英特尔一直在通过不同的产品形态进行尝试。从2020年推出768颗Loihi1的Pohoiki,到2022年推出8 Loihi2的单板PCB Kapoho Point,再到今天1152颗Loihi2的多路集成的Hala Point,以不断验证Loihi的规模。
宋继强表示,跨不同PCB的板级互联需要专门设计,以实现更低延迟及更低的功耗,神经元间通信可能至少要跨越三个层级的I/O,Hala Point验证了大规模Loihi部署中的网络协议和物理层通信的性能。通过增加3D互连的接口,Hala Point验证了神经拟态系统不止可以水平互联,还可以实现垂直互联。
Loihi如何模拟真正的大脑
人脑作为地球上最为高效的计算设备,可以仅仅用20w的功率,1.3公斤的质量,就能完成每秒100万亿次的运算量。如果用计算机来模拟的话,功耗要达到人脑的500万倍之多。这也是Loihi等类脑芯片的目标:即实现大脑一样的低功耗及高性能。
宋继强解释道,Loihi主要利用两个方式实现低功耗。首先是改变了传统冯诺依曼的计算架构方式,通过存算一体,节约了数据在内存与CPU之间搬运的功耗,同时又可以实现高带宽。其次,则是采用了异步时钟,通过事件驱动方式工作,即有事件的路径处于工作状态,其他路径都是休眠的。同时,消息传输依靠的是队列式的动态连接,并不真正占用总线。
因此,即便是规模庞大的处理器集群,神经拟态计算系统也是稀疏化、局部并行化的计算。非常适合低功耗、低延迟的工作。
大脑有神经元和突触之分,神经元指的是组成神经系统结构和执行神经功能活动的一大类高度分化细胞,突触则是是指一个神经元的冲动传到另一个神经元或传到另一细胞间的相互接触的结构。
英特尔的Loihi也有类似操作,所以叫做类脑芯片。内部有承载神经元胞体能力的组织,有计算逻辑、存储逻辑、模拟输入输出等,也有模拟轴突和树突的输入输出。
Loihi也是类似。在其神经元模型中,可以处理收到信号的序列、计算及输出,甚至还可以模拟出神经元的衰减过程。突触操作则是参数化神经元的链接过程。宋继强表示,神经拟态系统每一个操作都是可以模拟到真实行为,因此神经元和突触各有各的功能,不过对于应用到不同的算法模型上,要赋予不同的物理意义。
神经拟态的可塑性就体现每个神经元和突触连接都是可配置的,可以根据训练模型进行调整,从而实现更优化的持续学习过程。
如图,Loihi 2相对于Jetson Orin Nano,功耗有了明显的降低。
Loihi 2与Intel 4
神经元的逻辑模型需要的计算逻辑和存储逻辑是固定的,所以晶体管越小,实现一个神经元所需要的空间越小。宋继强表示,与忆阻器等利用模拟工艺实现神经拟态不同,英特尔认为全数字是更优化的方案,可以更容易实现批量生产和测试。
Loihi 2采用的是Intel 4的预制程,它是第一款采用Intel 4制程技术的芯片。由于使用了新制程,相比14nm的Loihi 1,Loihi 2的芯片面积从60平方毫米缩小到31平方毫米,单核依然为128个神经元核,但每个神经元核内的神经元数量由1000个提高到了8000个,整个单芯片支持的总的神经元数量由之前的12.8万个增加到了一百万个。
随着未来制程的不断缩微以及漏电流的减少,Loihi的性能、密度以及功耗表现,都会进一步提升。
应用探寻
宋继强强调,推出Hala Point并不意味着Loihi 2要专注于大规模的任务。Loihi 2更好的应用场景是在多路处理优化上,其低功耗高带宽的特性适用于包括多路视觉处理、传感器融合处理等并发处理方面。目前Loihi有一半的应用是跟机器人、操控、多模态视觉挂钩的。
宋继强还表示,即便是针对数据中心的任务卸载,在某些应用中,Loihi可以比CPU或GPU节能3000倍,因此在诸如科学和工程问题解决、物流等领域实现高效的计算。
在2024年4月国际声学、语音和信号处理会议 (ICASSP)上,英特尔发表的论文显示,Loihi 2 在小规模边缘工作负载的效率、速度和适应性方面的数量级提升。
今年的世界移动通信大会(MWC)上,爱立信研究院(Ericsson Research)就展示了其如何将Loihi 2神经拟态处理器应用于电信基础设施效率的优化。
生态构建
为了让更多群体用好神经拟态计算,英特尔组建了INRC(英特尔神经形态研究社区),目前已有超过200支研究团队从事相关研究。英特尔中国研究院也邀请联想、北京大学、清华大学等高校,参与INRC中,从而合作探索神经拟态的更多应用。
比如,英特尔近期就推出了英特尔神经拟态挑战赛,主要围绕实时音频去噪领域进行算法及硬件上的创新,从而展现神经拟态计算的优势。
另外,英特尔也推出了Loihi开发软件Lava,作为开源软件,Lava是一套模块化的、开源的,可以支持多平台的,可以和其他软件实现互操作的软件开发框架。
INRC社区的开发计划
未来规划
宋继强表示,英特尔未来会围绕制程、软件以及社区三方面,推动神经拟态计算的扩展,这也是Loihi赢得胜利的关键要素。