早在 6 月,就有报道称 SK 海力士已收到的下一代 HBM3E DRAM 样品请求,当 宣布其采用增强型 HBM3E DRAM 的 GH200 GPU(每芯片可提供高达 5 TB/s 的带宽)时,这一请求成为现实。
本文引用地址:SK 海力士公司今天宣布成功开发出 HBM3E,这是目前用于人工智能应用的下一代最高规格 DRAM,并表示客户的样品评估正在进行中。
该公司表示,HBM3E(HBM3 的扩展版本)的成功开发得益于其作为业界唯一的 HBM3 大规模供应商的经验。凭借作为业界最大 HBM 产品供应商的经验和量产准备水平,SK 海力士计划在明年上半年量产 HBM3E,巩固其在 AI 内存市场无与伦比的领导地位。
该公司表示,最新产品不仅满足业界最高的速度标准(AI 内存产品的关键规格),而且所有类别都包括容量、散热和用户友好性。
在速度方面,HBM3E 每秒可处理高达 1.15 TB 的数据,相当于每秒处理 230 多部 5GB 大小的全高清电影。
此外,该产品在最新产品上采用先进质量回流成型底部填充(MR-MUF)尖端技术,散热性能提高了 10%。它还提供向后兼容性,甚至可以在为 HBM3 准备的系统上采用最新产品,而无需修改设计或结构。
MR-MUF 是指将芯片附着到电路上并在堆叠芯片时用液体材料填充芯片之间的空间而不是铺设薄膜以提高效率和散热的工艺。向后兼容性是无需修改设计即可实现新旧系统之间的互操作性的能力,特别是在信息技术和计算领域。具有向后兼容性的新型内存产品允许继续使用现有的 CPU 和 GPU,而无需修改设计。
Hyperscale 和 HPC 部门副总裁伊恩·巴克(Ian Buck)表示:「英伟达为了最先进加速计算解决方案 (Accelerated Computing Solutions) 所应用的 HBM,与 SK 海力士进行了长期的合作。为展示新一代 AI 计算,期待两家公司在 HBM3E 领域的持续合作。」
SK 海力士 DRAM 商品企划担当副社长柳成洙表示:「公司通过 HBM3E,在 AI 技术发展的同时备受瞩目的 HBM 市场中有效提升了产品阵容的完成度,并进一步夯实了市场主导权。今后随着高附加值产品 HBM 的供应比重持续加大,经营业绩反弹趋势也将随之加速。」
根据 TrendForce 集邦咨询调查显示,为顺应 AI 加速器芯片需求演进,各原厂计划于 2024 年推出新产品 HBM3E,预期 HBM3 与 HBM3E 将成为明年市场主流。HBM3E 将由 24Gb mono die 堆栈,在 8 层 (8Hi) 的基础下,单颗 HBM3E 容量将一口气提升至 24GB。除了英伟达外,Google 与 AWS 正着手研发次世代自研 AI 加速芯片,将采用 HBM3 或 HBM3E。
HBM3 平均销售单价高,2024 年 HBM 整体营收将因此大幅提升。观察 HBM 供需变化,2022 年供给无虞,2023 年受到 AI 需求突爆式增长导致客户的预先加单,即便原厂扩大产能但仍无法完全满足客户需求。展望 2024 年,TrendForce 集邦咨询认为,基于各原厂积极扩产的策略,HBM 供需比(Sufficiency Ratio)有望获改善,预估将从 2023 年的-2.4%,转为 0.6%。
8 月 8 日,英伟达创始人兼 CEO 黄仁勋在计算机图形年会 SIGGRAPH 上发布了 HBM3E 内存新一代 GH200 Grace Hopper 超级芯片。这款芯片被黄仁勋称为「加速计算和生成式 AI 时代的处理器」,旨在用于任何大型语言模型,以降低推理成本。
与今年 5 月发布的 GH200 不同,新一代 GH200 芯片搭载了全球首款 HBM3E 内存,内存容量和带宽都有显著提高,专为加速计算和生成式 AI 时代而设计。
新版 GH200 芯片平台基于 72 核 Grace CPU,配备 480GB ECC LPDDR5X 内存以及 GH100 计算 GPU。此外,它还搭配着 141GB 的 HBM3E 内存,分为六个 24GB 的堆栈,并采用了 6,144 位的内存接口。尽管实际上英伟达安装了 144GB 的内存,但可用的内存容量为 141GB。
借助全球最快的 HBM3E 内存,这款芯片的内存容量高达 141GB,带宽每秒可达到 5TB。每个 GPU 的容量比英伟达 H100 GPU 多出 1.7 倍,带宽比 H100 高 1.55 倍。
英伟达强调,新版 GH200 Grace Hopper 芯片使用了与原版相同的 Grace CPU 和 GH100 GPU 芯片,因此无需推出新的软件版本或步进。原版 GH200 和升级版 GH200 将共存于市场,后者将以更高的价格销售,因为它具备更先进的内存技术带来的更高性能。
英伟达表示,新版 GH200 旨在处理世界上最复杂的生成式 AI 工作负载,包括大型语言模型、推荐系统和矢量数据库,并将提供多种配置。