近期,MLCommons公布了针对AI模型训练的行业标准MLPerf训练v3.1基准测试结果。其中,内置英特尔®高级矩阵扩展(英特尔®AMX)加速引擎的第四代英特尔®至强®可扩展处理器作为唯一提交MLPerf测试结果的CPU,在测试中展现出强大的性能,进一步印证了英特尔对加速在云、网、边、端的工作负载中大规模部署AI的承诺。
本次,英特尔提交了ResNet50、RetinaNet、BERT和DLRM dcnv2的测试结果。值得注意的是,在DLRM dcnv2这一个新提交的测试模型中,第四代英特尔至强可扩展处理器仅使用四个节点就在227分钟内完成了训练。而对于ResNet50、RetinaNet和BERT,第四代英特尔至强可扩展处理器亦展示出了强大的开箱即用的性能。
在通用AI工作负载中第四代至强可扩展处理器具备出色性能
在分别于今年6月、9月和11月进行的三次测试中,英特尔提交了基于第四代英特尔至强可扩展处理器的多个推理基准测试,结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的DLRM v2深度学习推荐模型及60亿参数大语言模型及计算机视觉与自然语言处理模型ChatGPT-J在内,第四代英特尔至强处理器对于通用AI工作负载拥有出色的性能。英特尔也与OEM厂商合作提交了测试结果,进一步展示了其AI性能的可扩展性,以及基于英特尔至强处理器的通用服务器的可获取性,充分满足客户服务水平协议 (SLA)。
第四代英特尔至强可扩展处理器的强大性能为企业提供了“开箱即用”的功能,可以在通用系统上部署AI以用于数据预处理、模型训练和部署,从而获得兼具AI性能、效率、准确性和可扩展性的最优组合,避免了引入专用AI系统的高昂成本和复杂性,其范围覆盖了多个框架、端到端数据科学工具,以及广泛的智能解决方案生态系统。许多企业可以在其现有的企业级IT基础设施上使用通用CPU进行高性价比、可持续地训练中小型深度学习模型,尤其适用于训练对象是间歇性工作负载的用例。
截止目前,第四代至强可扩展处理器已出货一百万片,并凭借其强劲的AI性能被本地生态伙伴广泛应用于众多领域。在于百度智能云9月发布的新一代云服务器BCC实例中,第四代至强可扩展处理器以AMX加速器扩展AI算力,从而使百度智能云用户在任何实例上轻松获取原生的强大AI能力。得益于英特尔AMX指令集针对矩阵运算的强大加速能力,腾讯BERT模型BF16吞吐量获得大幅提升,从而有效地优化了其AI用户的终端体验。通过AMX INT8及BF16的不同精度数据处理、AVX-512的深入调优,以及英特尔软件的加持,阿里云地址标准化业务和淘宝搜索的定制化推荐业务实现了大幅性能提升。
与此同时,第四代英特尔至强可扩展处理器亦助力亚信、用友、金蝶和东软等独立软件服务商实现在OCR等领域的多项业务升级,助力其成功应对来自不同应用场景的多样化AI工作负载需求。
致力于推动AI无处不在,英特尔不仅打造包括第四代英特尔至强可扩展处理器在内的硬件产品,亦通过开源的软件堆栈和开放的生态为生态伙伴提供全方位助力,旨在满足千行百业对多重性能、能效和易用性的动态要求,进一步推动AI应用落地。