早年间,CPU在数据中心还是掌控一切的大脑,AI任务多数都会交给GPU。而现在,CPU上形形色色的加速器为其带来更多AI处理能力,以应对一些小型AI负载的推理任务。因此,AI基准测试已经逐渐成为客户选择的重要参考标准。
2024年Computex上,AMD展示其全新的第五代EPYC Turin CPU系列,该系列采用最新的Zen 5核心架构。为了展示其AI性能的强大,AMD称在AI吞吐量工作负载方面显著优于英特尔的至强系列,并在PPT中表示在运行基于 Llama 2 的聊天机器人方面,双路128核Turin(总共256个内核)的性能,是英特尔64核Emerald Rapids Xeon 8592+(总共128个内核)的5.4倍。
任何基准测试都需要控制变量在同一水平下,同时,在讨论任何问题时,正反两方的辩论都值得一听。最近,英特尔就在官网放出了截然不同的测试结果。
同一基准测试的不同结果
英特尔在官网表示,由于AMD并没有披露这些基准测试所使用的软件配置,AMD所使用的软件和服务级别协议(SLA)也没有得到证实。
英特尔进一步推测,如果基准测试代表了真实性能,造成这种差异的原因或许在于英特尔对AMX(高级矩阵扩展)数学扩展的支持。这些矩阵数学函数极大地提高了人工智能工作负载的性能,目前尚不清楚AMD在测试英特尔芯片时是否使用了AMX。
值得注意的是,AMX支持BF16/INT8,因此软件引擎通常会将INT 4权重转换为更大的数据类型,以通过AMX引擎驱动。AMD当前一代芯片不支持原生矩阵数学运算,目前尚不清楚新一代的Turin是否也支持。
在英特尔使用公开可用的软件(带有 Intel Extension for PyTorch 软件的 PyTorch)测量了性能,英特尔为其基准测试假设了“严格的”50ms P99 延迟限制,并使用了相同的 INT 4 数据类型,结果表明,在执行相同任务时,目前正在出货的第五代至强芯片(64核Emerald Rapids Xeon 8592+)比AMD未来即将推出的3nm 128核EPYC Turin处理器更快。
每一代至强都很能打
英特尔强调,AMD选择将他们未来的CPU与英特尔去年年底推出的Xeon 8592相比较,而非英特尔在6月全新发布的至强6处理器家族。
AMD对于第五代英特尔至强处理器的“抨击点”主要是Llama2-7B聊天机器人的用例,经过英特尔测试,第五代英特尔至强处理器与竞争对手的当前一代CPU相比,提供了真正的性能领先优势,而这些结果比AMD所说的要好5.4倍。优化软件还会进一步显著改善第五代英特尔至强处理器在摘要和翻译场景中的不准确表示,分别为2.3倍和1.2倍。
此外,英特尔声称,即使是其上一代的第4代英特尔至强处理器,在采用流行的数据类型int8的测试时,都可以击败竞争对手的当前一代产品。
值得注意的是,此处英特尔并没有将其基准测试结果与AMD的Turin保持一致,AMD一直对比的是128核的Turin,而英特尔此处对比的是AMD Zen 4C核心的EPYC Genoa 9754。
为什么至强这么擅长推理AI?从技术角度来看,至强的硬件特征主要包含两方面:第一,对AI而言就是AMX与AVX-512;第二,内存带宽更强大了,不仅LLC变大了,而且整个内存频率可以支持到5200MHz,吞吐量会变得更高。
由于LLM工作负载受益于更高的内存带宽,预计英特尔即将推出的至强6处理器将达到新的性能水平,因为至强6内存带宽比第五代英特尔至强处理器增加2.3倍,从 8 个通道的DDR5增加到12个通道的DDR5支持MCR DIMM。
虽然此处英特尔并没有放出关于至强6相关的信息,但无论是E核设计的至强6000E系列(代号Sierra Forest),还是P核设计的至强6000P系列(代号Granite Rapids),在Intel 3制程工艺、核心数和带宽的多重增强下,AI性能一定会更强大。
根据此前英特尔放出的信息,Sierra Forest内置英特尔AVX2,支持VNNI和BF16/FP16,适用于图像分类、对象检测、自然语言处理、推荐系统等各类模型。它能在处理云级工作负载的同一内核上,高效执行 AI 推理任务;通过支持广泛使用的软件库和框架实现了 AI 功能的开箱即用。而Granite Rapids在运行80亿参数的Llama 3模型推理时,延迟比第四代英特尔至强处理器表现出两倍的提升,并且能够以低于100毫秒的token延迟运行700亿参数的Llama 3模型推理。简单来说,就是随随便便跑大模型。
基准测试背后的那些问题
事实上,早在很久以前,无论是GPU、FPGA还是边缘AI,AI基准测试早就打得不可开交。而现在,战火烧到了CPU。
目前来看,英特尔确实将其CPU和Gaudi测试结果提交给了公开可用的行业公认的 MLPerf 数据库,以便于验证AI基准测试结果,而AMD尚未提交任何基准测试进行比较。
随着事件不断发酵,英特尔有着至强6 E-Core和待发布的P-Core,而AMD则手握EPYC Turin/Turin Dense待发布,可见,未来AI基准测试战可能还会升温,我们也会看到更多关于AI基准测试的结果。而那时候,或许行业会有更好的统一标准。