人工智能(AI)已成为推动全球技术变革的核心力量,它在医疗、金融、汽车和娱乐等多个领域展现出巨大的发展潜力。但随着人工智能应用的广泛扩展,训练和部署这些复杂模型所需的计算力也在急剧上升。这一趋势使得数据中心的资本支出(CapEx)和运营支出(OpEx)持续上升,而数据中心正是支撑这场数字革命的关键基石。
面对成本不断上升的挑战,众多数据中心业主采纳了一种策略,即通过人工智能训练设备的摊销来分摊推理阶段的成本,例如,部署已经训练完毕的人工智能模型。尽管这种做法在短期内看似能够减轻企业财务压力,实则潜藏风险,可能会对数据中心的财务健康和运营效率造成不利影响。为了推动人工智能的持续健康发展,我们必须调整策略——力求在平衡资本投入与运营支出的同时,保障设备的长期稳定性和高效运行。
当前策略:摊销和分摊成本
将人工智能训练硬件的成本在其预计使用周期内进行摊销的做法相对直接。鉴于人工智能训练对计算资源的高需求,高端GPU和加速器的购置成本可能高达数百万美元。数据中心业主通过将这些高昂成本分摊至数年,试图为这一巨额投资提供合理性,并确保高端训练设备在经济上具有可行性。
这些昂贵的硬件在完成训练任务后并不会闲置,它们通常会在训练阶段结束后转而用于推理工作。这种做法的思路是,如果数据中心能够利用同一套硬件既进行训练又进行推理,那么由此产生的总收入将有助于抵消最初的设备投资和持续的电力消耗。从理论上看,这一逻辑是成立的:将投资成本分摊到多种运营活动中,可以减轻财务指标的压力,从而可能提升盈利水平。
然而,现实情况远比理论复杂。依赖人工智能训练设备进行推理的做法,给数据中心带来了不容忽视的限制,如今这些问题已无法再被忽略。
真正的运营成本元凶:电力消耗
尽管训练设备是一项关键的资本投入,但在数据中心中,电力消耗才是运营成本的主要组成部分,尤其是在训练和推理过程中。高性能GPU和加速器在运行时产生大量热量,需要强大的冷却系统来维持,这不仅导致电费激增,还给电力设施带来压力。即使采用了尖端的冷却技术和节能措施,大规模运行人工智能的电力需求依旧难以有效控制。
当数据中心使用高功率训练设备执行长时间的推理任务时,问题愈发明显。与通常为突发性且可能间歇性进行的训练不同,推理任务是持续性的,因为模型需要处理实时数据流。持续的工作负载意味着,这些高容量系统需要长时间接近满负荷运行,从而导致运营成本远超预期。
隐藏的运营成本元凶:延迟
在硬件处理领域,延迟是一个常被忽略却具有重大影响的因素。延迟指的是从发起查询到获得响应之间的时间间隔。在机器学习的训练阶段,延迟一般是可以容忍的,但在推理阶段,情况则完全不同。在这个环节中,即便是微小的延迟也可能引发连锁反应。如果响应时间超过几秒钟,就可能导致用户参与度下降,损害用户体验,并违背实时处理的目的。
为了克服延迟问题,工程师可能会考虑增加处理器数量以实现并行处理,从而提升整体处理能力。乍看之下,这种方法似乎行之有效;毕竟,增加处理器能直接提升处理速度。但实际上,这个问题远比想象中复杂。增加处理器确实能够提高性能,但这背后的代价也是巨大的:数据中心运营方的资本支出和运营支出将会急剧增加。扩充硬件资源如同添柴加火,虽然可能暂时缓解延迟问题,但也可能引发成本急剧增加,以至于难以持续的程度。
成本的增加不仅体现在初期的投资上,还会导致日常运营预算的上升,进而增加电力消耗、维护成本和资源管理的需求。对于众多企业而言,这种做法可能会变成一项沉重的运营负担,其带来的负面影响可能超过了减少延迟所带来的收益。面对这一挑战,企业需要采纳更为高效和可持续的策略来解决延迟问题,比如通过专门的硬件优化、更智能的数据处理架构,或是利用那些能简化实时响应又不会超出预算的技术手段。
设备折旧和寿命挑战
当前摊销策略的一个主要问题在于,它预设了人工智能训练设备在转为推理任务使用时,能够持续足够长的时间来完成全部折旧。尽管这些设备确实具备强大的处理能力,但长时间连续使用所造成的磨损和损耗可能会非常严重。
训练阶段被极限使用的人工智能硬件,在持续执行推理任务时的耐用性可能不如预期。一个不容忽视的现实是,许多数据中心可能不得不在这些系统完成折旧之前就进行更换,这不仅会导致资本提前注销,还会带来额外的财务负担。
寻求可持续解决方案
面对这些挑战,行业必须探索可持续的解决之道,在资本支出与运营支出之间寻求平衡,确保对人工智能基础设施的投资不仅在短期内合理,长远来看也能保持耐用与高效。此时,那些着眼于长期稳定性和能源效率的创新设计便显得尤为重要。
一种可能的解决方案源自一个看起来与数据中心并不相关的行业:汽车产业。汽车级技术长期以来致力于打造耐用、性能稳定且高能源效率的产品。不同于传统数据中心硬件,汽车级系统被设计成能够抵御恶劣环境和长期连续运行的考验,且其性能不会明显衰退。这种坚韧特性意味着更长的使用寿命和降低的更换频次,这在考虑设备摊销时成为一个至关重要的优势。
采用汽车级方法
一家最初服务于汽车行业的创新企业,开发了一项技术,可能会重塑数据中心在人工智能策略上的制定方式。该技术采用为汽车行业量身定制的严格质量和耐用性标准,汽车级解决方案因此具备了与数据中心需求高度匹配的多个优势。
首先,这些系统在设计上注重低功耗。与许多高功耗的高端GPU和人工智能加速器不同,这项技术在保持卓越性能的同时,优先考虑了能源效率。这有效解决了在大量运行人工智能模型时电力消耗所带来的主要运营成本问题,从而显著降低了整体的运营成本。
其次,这类解决方案相较于传统人工智能训练硬件,拥有更长的使用寿命。采用汽车级耐用性的设备能够抵御持续使用的严苛环境,不易像传统数据中心硬件那样出现早期磨损和损坏。这意味着更长的折旧周期和减少了对新硬件的资本投入,从而有效减轻了数据中心运营商的财务压力。
重新思考人工智能策略
人工智能的发展势头不减,支撑其成长的数据中心需求也在不断上升。目前,将昂贵的训练设备转用于推理任务以分摊成本的策略,正日益显露出其短视性,该策略未能充分考虑电力消耗和硬件寿命的实际影响。为避免财务和运营上的不可持续压力,必须对战略进行调整。
将汽车级技术解决方案融入人工智能基础设施规划之中,能够带来迫切需要的改善。虽然这些系统可能需要在初期重新调整预算以应对较高的资本支出,但其长期好处——降低能耗、延长设备使用寿命,以及更为合理的摊销安排——将远超初始的投资成本。
最终思考
在数据中心不断推动人工智能革命的过程中,行业领导者们必须重新审视策略,以应对AI规模化带来的隐性成本。目前,将训练设备成本通过在推理阶段的共用进行摊销的做法,忽视了关键的运营成本挑战和硬件使用寿命的实际问题。
通过采纳注重效率和持久性的解决方案,数据中心能够为人工智能的未来构建一个更加可持续、更具成本效益的基石。未来的发展路径,不仅要求在AI模型上推陈出新,也要求在支撑AI运行的基础设施上进行创新。
本文翻译自国际电子商情姊妹平台EETimes,原文标题:
相关文章