生成式人工智能(AI)的大规模落地取决于提高处理效率和降低总拥有成本。与互联网及其万维网应用程序的发明类似,生成式人工智能已经抓住了公众的想象力。ChatGPT技术一经发布就受到了各界的广泛关注,它是迄今为止用户增长最快的应用程序,仅在问世的前两个月内,注册用户数就突破了1亿人。
生成式AI正取得所有行业的关注,并有望释放出无与伦比的生产力浪潮。具体来看,生成式AI的市场潜力巨大,它可助力多个领域的发展,比如,辅助药物研发,提高医生诊断准确率,提高订单预测准确率,以及帮助程序员编写高质量软件代码。预计每年将能为全球经济增加4万亿美元以上的价值。
生成式AI大语言模型面临的硬件挑战
与大多数应用程序不同,虽然ChatGPT软件正在步入正轨,但是支持运行该应用程序的硬件却并非如此。
生成式AI大语言模型所面临的硬件挑战来源于——算法使用了大量的参数来生成结果。例如,ChatGPT的前一代模型GPT-3.5需要1,750亿个参数,虽然官方暂未公布GPT-4版的参数量,但是机构预估其参数量约有1.7万亿个。对此,支持生成式AI大语言模型的AI硬件加速器必须扩展到能够处理1,750亿到近2万亿个参数的标准,才能满足每个用户的查询操作。
在当前的计算架构上,处理器核心和存储器之间的大量数据流,通常在计算核心外部来进行处理。这种设置会导致内存瓶颈的出现,通常它也被称为“内存墙”,会带来严重的带宽限制。
以上因素不仅排除了CPU计算架构,而且还排除了GPU等其他AI计算架构。以GPT-4为例,其中高端的GPU约有97%的时间处于空闲状态,这相当于大约只有3%的效率。在这样的低效率下,一个标称计算能力为1 PetaOPS(每秒一千兆/一千万亿次运算)的处理器,只能产生大约30 teraOPS(每秒一兆/一万亿次运算)的处理速度。
如今,这些算法在高性能计算集群上执行,每个集群需要消耗大量的能源。随之而来的问题是,执行ChatGPT-4用户查询所需的功耗已经超出极限,这导致发电厂超载和能源分配网络压力过大。
ChatGPT的运行成本极其高昂
ChatGPT的功耗并非阻碍其商用落地的全部因素。ChatGPT技术的快速推出,进一步拉高了其配套硬件的投资成本。ChatGPT需要大量的计算资源和能源,它需要高端的硬件设备来支持运行,而高端设备的采购成本非常高昂,给企业和组织带来了巨大的财务压力。根据目前市场上先进处理器的采购选择,支持每秒运行10万次查询的GPT-4处理系统的采购成本高达数千亿美元,而运行该系统的能源年成本将在数亿美元左右。
显然,高昂的成本是大规模部署ChatGPT创新技术的障碍。
生成式AI大规模落地需满足三大要求
不过,这也为半导体行业的发展提供了机遇,通过提供支持性的硬件,可推动生成式AI大语言模型的发展。这需要一个可行的解决方案来解决可用基础设施架构不足的问题:
- 将处理效率从2%至4%提高到至少50%。标称计算能力为1 PetaOPS的AI处理器,必须在现实工作负载下提供至少500 TeraOPS的处理速度。
- 降低硬件成本。一个“有效的”而非“理论上的”计算能力为1 PetaOPS的AI处理器的成本不得超过1万美元。
- 更低的功耗。一个“有效的”而非“理论上的”计算能力为1 PetaOPS的AI处理器的功耗必须不超过100W。
总体而言,为了实现经济可持续性和节能,ChatGPT处理系统的成本效益必须提高两个数量级以上。只有把GPT-4系统上每秒运行10万次查询的年总成本从数千亿美元降低到100亿美元以下,才能实现生成式AI的承诺。
本文翻译自国际电子商情姊妹平台EETimes Europa,原文标题: