今年以来,半导体行业巨头英特尔可谓动作频频。
3月,英特尔宣布“IDM 2.0”战略,前不久公布了其制程工艺和封装技术路线图,而继前几天发布全新高性能显卡品牌“英特尔锐炫™”之后,8月19日英特尔在其架构日上又推出了面向CPU、GPU、IPU的多款新产品,包括两款x86 CPU内核、两款数据中心SoC、两款独立GPU以及首个客户端多核性能混合架构。
在这一场历时两个半小时、一口气发布了多款新品的架构日活动中,这家芯片巨头透露了哪些重要信息?
一.捍卫CPU市场地位:Alder Lake+Sapphire Rapids
首先,在自家主战场CPU领域,英特尔推出了首个性能混合架构Alder Lake以及下一代可扩展处理器Sapphire Rapids,以捍卫CPU市场地位。
两款新一代x86内核
活动上,在介绍首个性能混合架构Alder Lake之前,英特尔首先介绍了两款新一代x86内核——曾用代号“Gracemont”的能效核(E-Core)、曾用代号 “Golden Cove”的性能核P-Core。全新的能效核是一个高度可扩展的x86微架构,能满足客户从低功耗移动应用到多核微服务的全方位计算需求;而全新的性能核不仅是英特尔迄今为止性能最高的CPU内核,而且在CPU架构性能方面实现阶梯式提升。
英特尔硬件线程调度器
拥有两款不同类型的全新内核,英特尔的目的是将两者相结合。为了为使性能核和能效核与操作系统无缝协作,英特尔开发了一种改进的调度技术,称之为“英特尔硬件线程调度器”。硬件线程调度器直接内置于硬件中,直接内置于硬件中,可提供对内核状态和线程指令混合比的低级遥测,让操作系统能够在恰当的时间将合适的线程放置在合适的内核上。
首个性能混合架构Alder Lake
搭载全新的性能核和能效核以及英特尔硬件线程调度器,英特尔推出了其下一代客户端架构Alder Lake。这是英特尔首个性能混合架构,基于Intel 7制程工艺打造而成,支持最新内存和最快I/O。由于采用了单一、高度可扩展的SoC架构,Alder Lake架构CPU支持从超便携式笔记本,到发烧级,到商用台式机的所有客户端设备。
英特尔表示,基于Alder Lake的产品将在今年开始出货。
下一代可扩展处理器Sapphire Rapids
除了客户端,英特尔这次还发布了一款数据中心处理器Sapphire Rapids。
Sapphire Rapids的核心是一个分区块、模块化的SoC架构,在保持单晶片CPU接口优势的同时,具有显著的可扩展性。Sapphire Rapids基于Intel 7制程工艺技术,采用英特尔全新的性能核微架构和全新加速器引擎,能够为云、数据中心、网络和智能边缘中广泛的工作负载和部署模式提供开箱即用的性能。
二.大举进军GPU市场:Alchemist SoC+Ponte Vecchio
在主战场CPU带来新品的同时,英特尔也再次向GPU市场发起进攻,带来了全新独立显卡微架构以及全新数据中心GPU架构。
Xe HPG、Alchemist SoC
首先,英特尔带来了一款全新的独立显卡微架构Xe HPG,采用新的Xe内核,聚焦计算、可编程、可扩展,并全面支持DirectX 12 Ultimate。Xe内核中的全新矩阵引擎(Xe Matrix eXtensions,XMX)能够加速AI工作负载,比如XeSS,是一项全新升频技术(upscaling technology),可以实现高性能、高保真游戏体验。
基于Xe HPG的Alchemist SoC(之前代号为DG2)采用台积电的N6制程工艺,将于2022年第一季度上市,并采用新的品牌名英特尔®锐炫™。
“登月挑战”Ponte Vecchio
活动上,英特尔公布了Xe HPC微架构相关信息。而基于Xe HPC微架构的全新数据中心GPU架构Ponte Vecchio被英特尔称为“英特尔迄今为止最复杂的SoC”,“实现堪比登月难度创新后的一款产品”。
Ponte Vecchio包含1000亿个晶体管,提供业界领先的浮点运算和计算密度,以加速人工智能、高性能计算和高级分析工作负载。活动上,英特尔展示了早期的Ponte Vecchio芯片显示出的性能,在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录。A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过2 TBps的连接带宽。
Ponte Vecchio已走下生产线进行上电验证,并已开始向客户提供限量样品。Ponte Vecchio预计将于2022年面向HPC和AI市场发布。
三.探索IPU:首个ASIC IPU “Mount Evans”
在市场上DPU热度渐起的同时,英特尔今年6月在Six Five峰会上公布了其对基础设施处理器(IPU)的愿景,如今推出首款专用ASIC IPU。IPU是一种可编程的网络设备,旨在使云和通信服务提供商减少在中央处理器(CPU)方面的开销,并充分释放性能价值。
Mount Evans是英特尔首款专用ASIC IPU,以及全新的基于FPGA的IPU参考平台——Oak Springs Canyon。通过基于英特尔IPU的架构,云服务提供商(CSPs)可以通过把基础设施任务从CPU转移到IPU,从而让数据中心收益更大化。把基础设施任务转移到IPU,能够让云服务提供商(CSPs)可以把所有的服务器CPU租给客户。
四.架构革新背后:先进封装+制程工艺
不得不说,英特尔带来的新品足以让业界惊艳,而这些改变创新背后是什么在支撑与推动?
架构日活动伊始,英特尔公司高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri提到,“有人问,到2025年,英特尔能让我们的工作负载处理能力有1000x(千倍级)的提升吗?”1000x,相当于摩尔定律的5次方,英特尔要如何在4年时间实现呢?
对此,Raja Koduri指出,为了在2025年满足1000x(千倍级)提升的需求,我们需要在每个技术领域实现至少4倍左右的摩尔定律提升,这些领域包括制程工艺、封装、内存和互连,而架构是将它们与软件结合起来的“炼金术”。
我们从这次架构日的Alder Lake、Sapphire Rapids、Ponte Vecchio三大重磅产品来看,首个性能混合架构Alder Lake,Raja Koduri称之为“是十多年来X86架构的最大进展之一”,这种大小核、性能混合架构虽不是业界首次出现,但随着英特尔也开始采用并实现两种不同类型内核动态智能调度,或将成为未来PC处理器架构发展趋势之一。
而在Sapphire Rapids和Ponte Vecchio两款产品中,我们可以明显看到先进封装在当中起到的关键性作用。
英特尔首席工程师Nevine Nassif指出,Sapphire Rapids的核心是全新的模块化分区架构,能够让平衡的至强架构突破标准物理线的限制。Sapphire Rapids是第一款使用嵌入式多芯片互连桥接(EMIB)封装技术的产品,后者是英特尔最新的55微米凸点间距芯片互连桥接技术。
这项封装技术把独立单元集成到一个封装内,以构建一个单独的逻辑处理器,其性能、功率和密度相当于一个单晶片。因此,Sapphire Rapids既不受架构的物理限制,也无需做艰难的妥协,就能够增加内核数量、缓存、内存和I/O。
同样地,在Ponte Vecchio这款产品中,封装技术再次发挥了至关重要的作用。
英特尔Ponte Vecchio首席架构师Masooma Bhaiwala表示,“保守地说,Ponte Vecchio是我在30年的芯片开发生涯中开发的最复杂的芯片。实际上,我甚至不确定把它称为芯片是否准确。它是包含诸多芯片的集合。我们把这些芯片称为‘单元’,它们通过高带宽互连交织在一起,就像一个单晶片一样发挥作用”。
Ponte Vecchio芯片由几个以单元显示的复杂设计构成,包括计算单元、Rambo单元、Xe链路单元以及包含高速HBM内存的基础单元。它们通过EMIB单元进行组装,而EMIB区块则可在这些单元之间实现功耗较低的高速连接。这些单元利用Foveros技术封装到一起,形成有源芯片的3D堆叠,提高功率和互连密度。高速MDFI互连则可让堆栈从1个扩展到2个。
对于Ponte Vecchio的制造工艺,Masooma Bhaiwala称,“横跨多个不同的制程技术节点,这堪称制造奇迹。”在Ponte Vecchio这款产品中,似乎还印证了英特尔IDM 2.0战略中整合公司内部和外部制程节点的可行性。
Masooma Bhaiwala在分享研发Ponte Vecchio过程中面临的挑战时提到,计算单元一个密集的多个Xe内核,也是Ponte Vecchio的核心,其制造采用TSMC“Node 5”制程技术。这个单元拥有极为紧凑的36微米凸点间距,以支持Foveros 3D堆叠。而基础单元是Ponte Vecchio的连接器,它是一个大晶片,采用为Foveros技术优化的Intel 7制程。
可见,英特尔使用其先进封装技术将不同制程节点上混搭独立的芯片或单元实现连接。据披露,英特尔将此前公布的Meteor Lake计算单元将采用英特尔的Intel 4制程技术进行生产,部分支持性单元将交由台积电生产。
写在最后
芯片类别从CPU、GPU到IPU,应用市场从PC、显卡、数据中心到云服务,英特尔正在运用其在软件、制造工艺、封装、内存等各方面技术,提供更好的产品组合。
这一场活动释出的信号或许有不同的解读,但对于英特尔CEO帕特·基辛格而言,他可能最想表达其在活动最后说的那一句,“英特尔回来了,新的故事才刚刚拉开序幕。”
封面图片来源:拍信网;文中图片来源:英特尔架构日直播截图