宣布® oneAPI工具包的2023年版本已在®开发者云平台(Intel® Developer Cloud)上线,并正在通过现有的渠道推送。新的支持即将推出的第四代英特尔®至强®可扩展处理器、英特尔®至强® CPU Max 系列和英特尔®数据中心GPU,包括Flex系列和新的Max系列。这些工具可提升性能和生产力,并增加了对新的Codeplay1插件的支持,使开发者能更容易地为那些非英特尔的GPU架构编写SYCL代码。这些基于标准的工具提供了硬件方面的选择,也让在跨架构系统上运行的高性能应用的开发变得更加轻松。
本文引用地址:
英特尔包括一套完整的最新编译器、库、分析和移植工具,以及优化后的AI和机器学习框架,让开发者能为oneAPI支持的CPU、GPU和FPGA构建高性能、跨架构的应用。开发者可使用这些工具快速实现性能目标,并通过单个代码库节省时间,从而将更多时间用于创新。
新版本的oneAPI工具包可帮助开发者利用英特尔硬件的先进功能:
● 第4代英特尔至强可扩展处理器和至强CPU Max系列,内置英特尔®高级矩阵扩展(英特尔® AMX)、Quick Assist 技术(QAT)、英特尔®AVX-512、bfloat16 及更多。
● 英特尔®数据中心GPU,包括内置基于硬件的AV1编码器的Flex系列,以及Max系列。Max系列提供灵活数据类型的支持,内置英特尔® Xe矩阵扩展(英特尔®XMX)、矢量化引擎(vector engine)、英特尔®Xe-Link互联扩展和其它功能。
oneAPI 2023工具包具有先进的软件性能:
● 英特尔® Fortran编译器(Intel® Fortran Compiler)提供了完整的 Fortran 语言直至 Fortran 2018标准的支持,并扩展了对 OpenMP GPU 分流的支持,加快了符合标准的应用程序的开发。
● 英特尔® oneAPI数学内核库(oneMKL)包含OpenMP 分流能力的扩展,提高了可移植性。
● 英特尔® oneAPI 深度神经网络库(oneDNN) 支持第四代英特尔至强处理器和Max系列CPU处理器的高级深度学习功能,包括英特尔®AMX、英特尔®AVX-512、VNNI 和 bfloat16。
通过丰富的SYCL支持,以及代码迁移和分析工具的强化,让面向多架构系统的代码开发变得更轻松,进而提高开发者的生产力。
● 英特尔®oneAPI DPC++/C++编译器增加了Codeplay为英伟达和AMD GPU开发的新插件的支持,以简化SYCL代码的编写,并提高代码面向这些处理器架构的可移植性。这提供了一个统一的构建环境,并整合了工具,以提高跨平台生产力。作为该解决方案的一部分,英特尔和Codeplay将为英伟达GPU的oneAPI插件开始提供商业化的优先支持(priority support)。
● 基于开源 SYCLomatic的英特尔® DPC++ 兼容性工具增加了100多个新的CUDA APIs支持,让从CUDA到SYCL的代码迁移变得更容易。
®VTune™ Profiler识别大规模MPI应用中的不均衡问题。
● 英特尔® Advisor为英特尔数据中心GPU Max系列添加了自动化roofline分析,以识别内存、缓存或计算瓶颈,确认其原因并进行优先处理,同时提供可操作的建议,以优化从CPU到GPU 的工作负载分流中的重复数据传输成本。
48%4的开发者面向使用多种处理器的异构系统进行开发,因此需要更高效的跨架构编程来应对现实工作负载日益扩大的范围和规模。结合使用oneAPI 的开放、统一的编程模型与英特尔基于标准的多架构工具,开发者能够在CPU和加速器的硬件、性能、生产力和代码可移植性方面自由地进行选择。相反,为专有编程模型(如 CUDA)编写的代码,缺乏面向其它硬件的可移植性,让开发实践变得孤立,将企业困于一个封闭的生态系统中。
此外, 开放生态系统也在继续扩大对oneAPI的使用,新的oneAPI卓越中心正在陆续成立。剑桥大学Open Zettascale 实验室正致力于将重要的百万兆级的备选代码(candidate codes)移植到oneAPI上,包括CASTEP、FEniCS和AREPO。该中心还提供课程和研讨会,由专家讲授oneAPI使用方法和工具,用于编译和移植代码以及优化性能。目前,在全球总共已经建立了30个oneAPI卓越中心。
备注:
1 Codeplay是一家英特尔旗下的公司。
MLPerf™ DeepCAM:
§ 使用优化后的Pytorch 1.11在MLPerf™ HPC-AI v 0.7 DeepCAM训练基准上获得未经认证的性能提升。结果没有经过MLCommons协会的认证。未经认证的结果没有经过MLPerf™审查,可能使用与经MLPerf™规范认证的结果不一致的测量方法和/或工作负载实现方式。MLPerf™名称和标识是MLCommons协会在美国和其他国家的商标。保留所有权利。严禁未经授权的使用。
§ AMD EPYC 7763 :英特尔截至2022年4月7日的测试。1-节点,2x AMD EPYC 7763,启用超线程,禁用 Turbo,总内存 512 GB(16 个插槽/32 GB/3200 MHz, DDR4),BIOS版本AMI 1.1b,ucode版本0xa001144,操作系统Red Hat Enterprise Linux 8.5 (Ootpa),内核4.18.0-348.7.1.el8_5.x86_64,编译器gcc(GCC)8.5.0 20210514 (Red Hat 8.5.0-4),https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl,Intel MPI 2021.5,Python3.8
§ 英特尔® 至强® 8380可扩展处理器:英特尔截至2022年4月7日的测试。1-节点,2x 英特尔® 至强® 8380处理器,启用超线程,禁用 Turbo,总内存 512 GB(16个插槽/32 GB/3200 MHz, DDR4),BIOS版本 SE5C6200.86B.0022.D64.2105220049,ucode版本0xd0002b1,操作系统Red Hat Enterprise Linux 8.5 (Ootpa),内核4.18.0-348.7.1.el8_5.x86_64,编译器gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4),https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512), Intel MPI 2021.5,Python3.8
§ 英特尔® 至强® CPU Max 系列(缓存模式)AVX-512:英特尔截至2022年5月25日的测试。1-节点,2x英特尔® 至强® CPU Max 系列,启用超线程,禁用 Turbo,总内存 128GB 高带宽内存(HBM)和1TB(16个插槽/ 64 GB/ 4800 MHz, DDR5),集群模式:SNC4,BIOS版本EGSDCRB1.86B.0080.D05.2205081330,ucode版本0x8f000320,操作系统CentOS Stream 8,内核5.18.0-0523.intel_next.1.x86_64+server,编译器gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-10), https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, AVX-512, FP32, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512),Intel MPI 2021.5,Python3.8
§ NVIDIA A100 80GB:英特尔截至2022年4月13日的测试。1-节点,2x英特尔® 至强® 8360Y可扩展处理器,启用超线程,启用Turbo,总内存 256 GB(16个插槽/16 GB/3200 MHz),PCIe 版 NVIDIA A100,BIOS版本AMI 1.1b,ucode版本0xd000311,操作系统Red Hat Enterprise Linux 8.4 (Ootpa),内核4.18.0-305.el8.x86_64,编译器gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1),https://github.com/mlcommons/hpc/tree/main/deepcam, pytorch1.11.0 py3.7_cuda11.3_cudnn8.2.0_0, cudnn 8.2.1, cuda11.3_0, intel-openmp 2022.0.1 h06a4308_3633,python3.7
§ 英特尔® 至强® CPU Max 系列(缓存模式)BF16/AMX:英特尔截至2022年5月25日的测试。 1-节点,2x英特尔® 至强® CPU Max 系列,启用超线程,禁用 Turbo,总内存128GB高带宽内存(HBM) 和1TB(16个插槽/64 GB/4800 MHz,DDR5),集群模式:SNC4,BIOS版本EGSDCRB1.86B.0080.D05.2205081330,ucode版本0x8f000320,操作系统CentOS Stream 8,内核5.18.0-0523.intel_next.1.x86_64+server,编译器gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-10),https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, AVX-512 FP32, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512,AMX,启用BFloat16),Intel MPI 2021.5,Python3.8
§ 第四代英特尔® 至强® 可扩展处理器多节点集群:英特尔截至2022年4月9日的测试。16-节点集群,1-节点,2x第四代英特尔® 至强® 可扩展处理器,启用超线程,启用Turbo,总内存 256 GB(16个插槽/16 GB/4800 MHz,DDR5),BIOS版本Intel SE5C6301.86B.6712.D23.2111241351,ucode版本0x8d000360,操作系统Red Hat Enterprise Linux 8.4 (Ootpa),内核4.18.0-305.el8.x86_64,编译器gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1),https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98 AVX-512, FP32, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512),Intel MPI 2021.5,Python3.8
3 LAMMPS
§ 与AMD EPYC 7773X相比,英特尔® 至强® CPU Max系列运行LAMMPS工作负载(原子流体的Geomean、铜、DPD、液晶、聚乙烯、蛋白质、Stillinger-Weber势、Tersoff势、水)的性能要高1.9倍。
§ 与英特尔® 至强® 8380处理器相比,英特尔® 至强® CPU Max系列处理器运行LAMMPS工作负载(原子流体的Geomean、铜、DPD、液晶、聚乙烯、蛋白质、Stillinger-Weber势、Tersoff势、水)的性能要高1.6倍。Intel® Xeon® 8380:基于英特尔截至2022年10月28日的测试。1-节点,2x英特尔® 至强® 8380处理器,启用超线程,启用Turbo,NUMA配置的SNC2,总内存256GB(16x16GB 3200MT/s, Dual-Rank),BIOS版本SE5C620.86B.01.01.0006.2207150335,ucode版本0xd000375,操作系统Rocky Linux 8.6,Linux版本4.18.0-372.26.1.el8_6.crt1.x86_64,LAMMPS v2021-09-29 cmkl:2022.1.0, icc:2021.6.0, impi:2021.6.0, tbb:2021.6.0; 线程/核:; 启用Turbo; BuildKnobs:-O3 -ip -xCORE-AVX512 -g -debug inline-debug-info -qopt-zmm-usage=high
§ AMD EPYC 7773X: 基于英特尔截至2022年10月6日的测试。1-节点,2x AMD EPYC, 启用超线程,启用Turbo,NUMA配置的NPS数:4,总内存256GB(16x16GB 3200MT/s, Dual-Rank),BIOS版本M10, ucode版本0xa001224,操作系统Rocky Linux 8.6 (Green Obsidian),Linux版本4.18.0-372.26.1.el8_6.crt1.x86_64, LAMMPS v2021-09-29 cmkl:2022.1.0, icc:2021.6.0, impi:2021.6.0, tbb:2021.6.0; 线程/核:; 启用Turbo; BuildKnobs:-O3 -ip -g -debug inline-debug-info -axCORE-AVX2 -march=core-avx2;
§ 英特尔® 至强® CPU Max系列:英特尔截至2022年8月31日的测试。1-节点,2x英特尔® 至强® CPU Max 系列,启用超线程,启用Turbo,NUMA配置的SNC4,总内存128 GB(3200MHz的HBM2e高带宽内存),BIOS版本SE5C7411.86B.8424.D03.2208100444,ucode版本0x2c000020,操作系统CentOS Stream 8,Linux版本5.19.0-rc6.0712.intel_next.1.x86_64+server, LAMMPS v2021-09-29 cmkl:2022.1.0, icc:2021.6.0, impi:2021.6.0, tbb:2021.6.0; 线程/核:; 禁用Turbo; BuildKnobs:-O3 -ip -xCORE-AVX512 -g -debug inline-debug-info -qopt-zmm-usage=high
4 Evans Data Global Development Survey Report 22.1, 2022年6月
性能因用途、配置和其他因素而异。结果可能会有所不同。
性能结果基于截至配置中所示日期的测试,并且可能无法反映所有公开可用的更新。
英特尔不负责控制或审计第三方数据。在评估数据准确性时,请参考其他信息源。