人工智能GPU工作压力也很大，平均寿命落在1~3年

发布时间: 2024-10-29

来源: 全球半导体观察

外媒报道，目前科技大厂争相砸大钱购买的数据中心 GPU，其寿命可能只有 1~3 年。真实寿命会落在1~3年的哪个时间点上，具体取决于其利用率的状况。

根据 Tom's hardware 引用一位任职于 Alphabet 的高级专家说法，由于 GPU 承担了 AI 训练和推理的所有繁重工作，它们一直处于相当大的工作执行状态之下，因此比其他零部件更快地退化。

报道表示，在云服务提供商（CSP）运营的数据中心中，用于AI工作执行的GPU利用率约当在60%~70%之间。而根据 Alphabet 生成式 AI 架构师的说法，以这种利用率来计算，GPU 通常可以存活 1~2 年，最多达到 3 年的时间。不过，这样的说法并没有办法被进一步的确认，所以事实是不是如此还有待时间来证明。然而，这样的说法似乎仍有几分可信度，因为现代用于AI和HPC应用的数据中心GPU通常能耗达到700W或以上，这长时间工作对芯片来说是巨大的压力。

报道指出，有一种方式可以延长 GPU 的寿命，就是减少其利用率。然而，这意味着它们会更慢的折旧，并延长收回成本的时间，这对业务来说并不是一件好事。因此，大多数云服务提供商更愿意以高利用率来使用他们旗下部署的 GPU。

事实上，2024年刚开始之际，Meta发表了一份研究报告指出，Llama 3 405B的模型是在由16,384个英伟达H100 80GB GPU驱动的丛集上进行训练的。而该集群的模型的浮点运算利用率（MFU）约为38%（使用BF16）。但在54天的训练期间，有419次不可预知的故障。其中有有148次，占比约30.1%的故障是由各种GPU故障，其中包括NVLink故障所引起的，而有另外的占比约17.2%的72次是由HBM3内存故障所引起。

这个Meta的设结果似乎对英伟达H100 GPU的使用状况非常有利。因为GPU及其存储器在Meta统计比例下的速度出现故障，那么这些GPU的年化故障率将约为9%，而这些GPU在3年内的年化故障率将约为27%。不过，要注意的是，这些GPU可能会在频繁的使用一年后，将可能更频繁地出现故障。

文章来源于: 全球半导体观察原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。

人工智能GPU工作压力也很大，平均寿命落在1~3年

相关关键词

相关文章