英特尔推出一颗128核心256线程的“算力炸弹”：至强6性能核处理器背后有什么技术？

过去三年，英特尔基于公司“四年五个制程节点”战略，持续加速推进产品创新，今年是一个重要的里程碑，其中全新的英特尔至强6处理器系列是极为关键的一个产品。

今年6月，英特尔发布了英特尔至强6能效核产品（代号Sierra Forest），为客户提供高密度计算和最佳的每瓦性能。9月26日，英特尔继续向市场投下一枚重磅的“算力炸弹”，即至强6性能核产品（代号Granite Rapids），它将为AI、数据库及科学计算等计算密集型工作负载提供最佳单核性能。尤其是最高128个核心和256条线程设计的产品，简直让人目瞪口呆。

性能更进一步的至强

英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立在发布会揭开了英特尔至强6性能核处理器的神秘面纱。

从型号上来看，至强6性能核处理器分为至强6900P、6900E、6700P、6500/6300等，其中，6900P是Granite Rapids的“完全体”，也是此次发布的重点，后续型号将在今年底和明年初陆续补齐。

具体拆解型号，后缀的“P”意味着采用的是性能核（Performance Core），代表这款产品主打便是高性能；6900和i9、i7、i5类似，代表着其顶尖强大，提供72到128核的多种规格，TDP有400W和500W两种，组合成已公开5种型号。

至强6900P作为业内首款性能核数量正式“破百”的产品，具有划时代意义，目前x86和Arm架构的产品最高只有96核水平，性能核数量要追平英特尔，起码得等到下个季度。

全新的架构设计

在设计上，这款处理器采用了灵活的架构设计，分为计算单元（Compute Die）和I/O单元（I/O Die）。

具体来说，计算单元包含了x86内核、内存控制器和缓存，而I/O单元则集成业界领先的PCle、CXL、UPI等通用协议，以及英特尔独有的加速器。通过不同的单元组合，可以更好地满足云边端在不同场景、性能及功耗方面的需求，并推出更优化的产品。

英特尔至强6900P系列配备了三个计算单元和两个I/O单元，内含多达128个x86内核。相比两年前主流服务器搭载的24至48个核的至强处理器，新产品在内核数量和整体性能上实现了显著提升。

在安全性方面，英特尔做了很多努力。客户非常关注数据安全，尤其是在云计算中。英特尔在第五代至强处理器中引入了英特尔TDX技术，提供硬件层面的机密计算架构，在英特尔至强6性能核产品中，TDX技术进一步升级至2.0版本。英特尔已与国内多家云厂商合作，积极推进TDX的应用落地。

随着至强处理器性能提升，能耗也随之增加，英特尔重视节能减排，推进液冷技术的发展。过去一年，英特尔与多家液冷厂商合作，推出了浸没式液冷和冷板式液冷方案，为数据中心提供低PUE和TCO的散热技术。英特尔还与业界许多厂商合作推出互换认证标准化模式，以推动液冷生态系统的成熟。

针对AI加速进行了优化

在AI加速方面，从第四代至强处理器开始，英特尔推出了专属指令集——英特尔®高级矩阵扩展（英特尔® AMX），这使得CPU更好地支持常见的大模型推理计算。该指令集在最新一代至强处理器中也进行了升级。

与上一代相比，至强6性能核处理器在性能和能效方面都有显著提升：内核数量从64提升至128，单核性能提升1.2倍，每瓦性能显著提升。尽管功耗增加30%至500瓦，但整体算力实现了双倍提升，能够帮助客户降低30%的总体拥有成本（TCO）。

最新的英特尔至强6性能核处理器可以运行12种常见工作负载，包括通用计算、数据库、科学计算及AI任务。比如，在Llama2和Llama3等大模型推理中，单颗CPU性能和每瓦特性能相比上一代提高了两倍以上，尤其是在AMX加速下，70亿参数的Llama2大模型推理性能提升了约3.08倍。

虽然很多AI负载运行在GPU上，但AI服务器或加速系统中绝大多数仍使用英特尔CPU处理器。因为在加速系统中，CPU需要出色的I/O性能和单核性能，以支持更快、更大的内存。英特尔与主流GPU厂商及AI生态合作伙伴建立了良好的合作关系，共同定义至强规格，提供最佳的系统体验。

此外，DC-MHS是开放计算项目OCP发布的模块化硬件系统规范，英特尔也参与了多个服务本土市场的开放算力模组规范的制定，如OCSP。未来英特尔将进一步分享相关内容。

开始引入MRDIMM技术

在计算能力提升的同时，英特尔也关注内存性能的增强。AI等工作负载对内存速度、带宽和吞吐有着极高的要求。英特尔至强6900P支持最高6400MT/s的DDR5内存，并引入了领先的MRDIMM技术，支持高达8800MT/s的数据传输速率，相较上一代5600MT/s实现了大幅提升。此外，该平台还拥有更完整的UPI接口和更多的PCle通道。

MRDIMM技术是一种创新的内存技术，它通过在内存模块上集成数据缓冲区，实现两个列的同步操作，一次向CPU传输128字节数据，而传统DRAM模块一次传输64字节。在使用MRDIMM内存的情况下，对于内存敏感型工作负载，如科学计算和AI任务，性能可以提升1.2～1.3倍。

除了更快的内存，英特尔还在推动更大的内存应用。CXL技术是英特尔发起的新技术平台，从上一代的CXL 1.0提升到这一代的CXL 2.0，能帮助客户突破物理内存限制，为数据库或大内存场景提供支持。接下来国内合作伙伴将分享他们在该领域的创新。

英特尔的朋友圈

英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉在发布会上表示，我们每天都处在飞速发展的数字浪潮中，AI已经成为各界关注的焦点，并展现出巨大的潜力。AI技术广泛应用于各行各业，如医疗辅助决策、机器视觉、金融量化交易与风险管理，以及智慧城市和智能家居。无论是个人生活还是产业发展，AI都在深刻影响着我们的社会和经济，就像当年的互联网浪潮，通过智能技术颠覆传统行业的格局和模式，重塑商业效率和产业价值链，加速各行各业的数字化进程，并推动计算产业进入新阶段。

当前，国家强调新质生产力是先进生产力的发展方向。它不仅仅是对传统商业模式的优化，也不仅仅是商业模式的微调，而是通过技术的革命性突破、生产要素的创新配置和产业的深度转型升级，催生出新质生产力。算力作为新型生产要素，结合数据和算法，能够推动经济模式的转变，加速产业升级，为新时代的崛起提供关键动力。同时，算力也是新质生产力的重要组成部分。

根据IDC的评估结果显示，15个重点国家的计算力指数每提高1个点，国家的数字经济和GDP分别增长3.6‰和1.7‰。算力指数发展到一定阶段后会产生放大效应。数据中心作为算力的主要载体，在过去近20年得到了长足发展。英特尔也在这一过程中，通过平台和产品的不断演进，持续优化数据中心架构。在云计算、大数据和AI成为普遍生产工具的今天，英特尔至强6性能核处理器为探索数据中心架构的变革奠定了坚实基础，释放了算力的价值。

英特尔至强6性能核处理器相较于上一代CPU，在计算密度、内存容量、数据处理和能效优化四个方面都得到了显著提升：

计算密度：CPU核数最高可达128核，在40%的利用率下，每瓦性能提升了1.9倍，为AI、数据分析和科学计算等计算密集型业务提供了强有力的支持。
内存性能：性能核处理器支持MRDIMM和CXL2.0技术，提升了内存带宽和容量，解决了CPU核数大幅提升后内存性能匹配的问题。
数据安全：通过加速器技术以及TDX和SGX安全机制，支持高速、安全的数据处理，为可信服务和机密计算提供了有力支持，这是当前技术发展的核心环节。
能效优化：通过CPU自身的能耗优化和先进数据中心的制冷技术，满足客户在算力大幅提升后的能效需求。

会议上，英特尔的小伙伴也纷纷介绍了基于至强6产品的相关合作：浪潮信息基于英特尔至强最新平台设计了模块化、松耦合的开源架构，满足客户多样化算力的部署需求；宁畅基于至强6性能核处理器设计了数据中心高密度系统，其设计的1U两节点和2U两节点服务器，可支持4颗至强CPU，全液冷实现100%覆盖，功率高达120kW，PUE低至1.05，极大降低TCO；阿里云基于英特尔至强6性能核开发了 “阿里云基于英特尔至强6的第九代ECS实例”；超聚变CXL内存池与英特尔至强6性能核处理器完美结合，为大家呈现两种极具性价比的使用模式；字节跳动云服务平台火山引擎第四代云服务器的一个实例基于英特尔TDX的方案打造，以机密虚拟机为核心，构建了机密计算的一个基础云服务，同时也结合了可信隐私计算的一个技术积累，共同构建了一个大模型的可信应用体系。