ChatGPT和GPT-4引发的大模型军备赛不仅没有熄火,反而愈加激烈,随着大模型竞赛来到下半场,其自身也不断展现出越来越大潜力,比如让AI自动设计芯片,或者让AI自动编程。为抢占领先地位,企业使出浑身解数,AI模型也越做越大,以达到力大砖飞的效果,实现智能涌现。但这引发一个大问题——算力不够用了。
A100和H100是这次浪潮中的主力军,几乎所有人都在抢购这些AI芯片。芯片行业中,所有企业一直以来,都倾向于采用多供应链的策略,其中不乏苹果、谷歌,有谁能够替代英伟达?
7月11日,英特尔正式于中国市场推出第二代Gaudi深度学习加速器—Habana Gaudi2,证明跑大模型也有所替代。作为一款针对中国市场的新产品,刚刚崭露头角的它,还有人持观望态度。
近日,MLCommons和Hugging Face陆续公布Gaudi2更多基准测试结果,并证明其推理能力显著超过A100。可以说,从现在开始,再也不能小看Gaudi2了,而用户对于大模型算力建设,也有了新选择。
Gaudi2开始登向“高地”
器件怎么样,直接看参数。
在针对60亿参数大语言模型及计算机视觉与自然语言处理模型GPT-J的MLPerf推理v3.1性能基准测试结果中:
Gaudi2在GPT-J-99和GPT-J-99.9上的服务器查询和离线样本的推理性能分别为78.58次/秒和84.08次/秒;
Gaudi2提交的结果采用FP8数据类型,并在这种新数据类型上达到了99.9%的准确率。
需要强调的是,Gaudi2和H100都采用了FP8,并且在GPT-J的测试中达到了非常满意的结果,和H100的差距非常接近,这主要是由于Gaudi2的MME支持了BF16和FP8的加速,而且结构设计合理,可以高效提升推理的能力。
而Gaudi2 的本身性能普遍高于A100, 采用了FP8后与A100(不支持FP8)的FP16相比优势更加明显。这中间包含了Gaudi2架构和软件设计的领先性以及资源的高效利用率。
另据Hugging Face发布的AI训练性能结果显示,经过BERT预训练、Stable Diffusion推理以及T5-3B微调多重测试下,Gaudi2的训练和推理速度约是英伟达A100 80GB的两倍。其报告显示,使用Optimum Habana v1.7,Gaudi2加速视觉模型BridgeTower时与A100相比实现了2.5倍加速,与H100相比则实现了x1.4加速。
回顾6月,MLCommons公布其行业AI性能基准测试MLPerf训练3.0的结果显示,Gaudi2在GPT-3的384个加速器上训练时间为311分钟;在GPT-3模型上,从256个加速器到384个加速器实现近线性95%的扩展效果。
从硬件配置上看,Gaudi2以第一代Gaudi高性能架构为基础,以多方位性能与能效比提升,加速高性能大语言模型运行。该加速器具备:
24个可编程Tensor处理器核心(TPCs);
21个100Gbps(RoCEv2)以太网接口;
96GB HBM2E内存容量;
2.4TB/秒的总内存带宽;
48MB片上SRAM;
集成多媒体处理引擎。
其中,值得注意的是,Gaudi2也采用了HBM2E。要知道,英伟达A100和H100生产便曾一度因为HBM而被限制。
Habana Labs中国区总经理于明扬表示,英特尔很好地预测了市场并预估了额外的需求,基本保证了生产和供应,可以满足大模型对于巨量HBM的需求。
再从软件上来看,英特尔主张开放,通过Developer Community与开发者互动,提供优化后的模型、开源驱动和工具库,并支持Pytorch、Deepspeed等开源框架,加入和维护开放生态。同时,软件上CUDA的影响已经很大程度缩小,这对整体环境更加有利。
于明扬强调,英特尔正在加快建立一个开放的AI软件生态系统,为客户、合作伙伴和开发人员提供早期访问和便捷、迅速的途径。英特尔的oneAPI能够提供更为开放的环境,支持不同层面的定制化开发,今后英特尔和客户都可以在软件中添加新的加速算子,并upstreaming到框架开源社区中。
至强走向“更强”
一并测试的不止是Gaudi2,也包括第四代英特尔至强可扩展处理器。
早在第四代至强发布之际,“七大神器”就被揭晓,而其中的各种加速器,能够支持大多数大型AI模型,包括实时、中等吞吐量、低延迟稀疏推理以及中、小型规模的训练和边缘推理。
与Gaudi2不同,第四代至强可以运行诸多AI工作负载,但它所应对的是参数量较小的模型,这也让Gaudi2得以专注在大模型上发挥自己的能力。
在模型规模跨度更大、需求更为广泛的今日,异构计算,即使用不同计算架构的方法显得十分重要。在第四代至强处理器+Gaudi2加速器的组合下,面对参数量动辄百亿、千亿的大模型,可以发挥最佳的性价比和能力。
那么,第四代至强,能力到底如何?
根据英特尔提交的基于第四代至强可扩展处理器的7个推理基准测试,其中包括GPT-J模型。结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的DLRM v2深度学习推荐模型及ChatGPT-J模型在内,第四代至强处理器对于通用AI工作负载拥有出色的性能:
第四代英特尔至强可扩展处理器是通过流行的AI框架与库构建及部署通用AI工作负载的理想选择。对于GPT-J对约1000-1500字新闻稿进行100字总结的任务,第四代至强可扩展处理器可在离线模式下完成每秒两段的总结提要,在实时服务器模式下完成每秒一段的总结提要;
英特尔首次提交了英特尔至强CPU Max系列的MLPerf结果,该系列可提供高达64GB的高带宽内存。对于GPT-J而言,它是仅有的能够达到99.9%准确度的CPU,这对于对精度要求极高的应用来说至关重要;
英特尔与OEM厂商合作提交了测试结果,进一步展示了其AI性能的可扩展性,以及基于英特尔至强处理器的通用服务器的可获取性,充分满足客户服务水平协议(SLA)。
截至目前,英特尔仍是唯一一家使用行业标准的深度学习生态系统软件提交公开CPU结果的厂商。
“未来在AI计算领域,英特尔将会提供可满足不同应用场景和总体拥有成本(TCO)的AI产品组合,为客户统一的开发平台,并助力于形成完整的产品生态链。”于明扬如是说。
给市场更多选择
大模型的风已经吹了大半年,迄今为止,还没有其他半导体供应商能够在GPT-3上建立、扩展和实现符合基准标准的性能。
Gaudi2是迄今除英伟达以外,唯二能够跑MLPerf GPT 3.0模型的产品,在这个方面已经具备了替代A100和H100训练的能力。尤其是在用户关注的性价比上优势更加显著。推理是新的市场机会,也是英特尔会持续发力的领域。
自从Gaudi2出现,它便受到产业链广泛关注。
对于Gaudi2的未来,于明扬表示:“Gaudi2将继续在性价比和性能功耗比两个方面展示出领先优势,同时在软件生态上也突破了传统CUDA的限制,做到了更好的兼容性。”
为了抓住浪潮的机遇,企业需要更多产品来武装自己的大模型,而英特尔第四代至强+Gaudi2或许是一个新的选择。