2022年ChatGPT的出现,掀起了全球再一次的AI应用热潮,凭借强大的功能和杰出的用户体验,(AIGC)成为2022年开始最引人关注的技术新浪潮。使用深度学习模型,利用现有文本、图像、音频等内容生成全新内容、解决方案或新概念的人工智能技术,可以通过学习输入数据的统计规律,来创造新的数据,因此它可以形成创造性的表达,极大地拓展了人工智能在各个领域的应用前景。并且可以通过AI大模型的经验分析,以极有想象力的方式生成众多满足用户创意需求的原创内容,并通过包括文本、图像、音频、视频甚至各类代码等方式输出。
本文引用地址:的运用有可能在不久的将来,像工业时代的铁路、电力、印刷等通用技术,影响各个产业。Bloomberg Intelligence报告指出,生成式AI市场可望迎来爆发性成长,在未来10年内从400亿美元的市场规模成长至1.3万亿美元。在训练AI系统所需基础设施的需求推动下,有望以42%的复合年均成长率逐步扩大规模,并在中长期阶段转向对大型语言模型、数字广告、专业软件和服务设施的推理需求。麦肯锡(McKinsey)预测,生成式 AI 能够在“经过分析的 63 种应用中增加 2.6 万亿到 4.4 万亿美元的年收入,与之相比,英国 2021 年的 GDP 总额仅为 3.1 万亿美元。如果我们将生成式 AI 嵌入到当前正在运行的其他任务软件中,这一估值预计将会翻倍。”
在这庞大的生成式AI财富圈中,硬件是其中不可或缺的一环,支持AI技术的发展涉及算力、存力、网力三大核心要求的各类硬件。在2022年下半年开始,生成式AI浪潮引爆了企业对芯片元器件的需求,其中,庞大的模型训练和任务部署对芯片的容量和性能的需求急剧增加,芯片正面临着内存墙限制的挑战。美光致力于为世界最先进的计算系统提供业界性能最佳的解决方案。美光科技领先的工艺提供了更快、更可靠和更大容量的产品,使人工智能、机器学习和生成人工智能成为可能。
在生成式AI技术出现之前,很多人在优化AI应用体验时就感受到了存力对AI应用的制约。AI模型的训练机制需要尽可能多的数据,越多的数据投喂结果越精准的工作原理,决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。
综合生成式AI在存储方面所面临的挑战,大致可以分为几个方面。
首当其冲的是GPU面临的存储容量问题,因为计算单元的存储能力有限,其计算效率同时受制于计算能力和与存储单元的通信能力。比如用于生成式AI模型训练的单卡无法完整存储一个大模型的参数GPT-3的1750亿个参数。参数本身就需要700GB的显存空间(每个参数按照4个字节计算)。
而以NVIDIA A100 GPU为例只有80GB显存,单卡增加显存似乎又涉及到成本和尺寸等问题,虽然该问题可以通过分布式训练和流水线并行的方式去解决,但分布式训练之后又会遇到通信墙的问题。再比如一台AI服务器需要的存储数量是普通服务器的3~6倍,而生成式AI对服务器的存储容量要求更大,无论是大规模模型的构建,还是海量训练数据的读取,以及最基本的天量级训练素材的储备和搜集,都需要庞大的服务器存储容量以及尽可能高速且低功耗的读取过程,因为以更快的速度处理数据需要大量的功耗,这将不可避免地导致大量碳排放。
更多的存储方面的问题还集中在AI集群每天都会产生大量新的数据集,历史数据的完整归档;小文件和非结构化数据过多,需要一个针对小文件存储进行优化的分布式存储系统。
云训练数据I/O效率低,对象存储较差的读写性能可能会导致训练过程中出现严重的瓶颈;以及持续的低延迟与高带宽和EB级大容量存储需求。
基于上述要求,HBM(High Bandwidth Memory,高带宽内存)作为一款新型的CPU/GPU 内存芯片比较好的满足了生成式AI的存储需求,HBM其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。高速、高带宽HBM堆栈没有以外部互连线的方式与信号处理器芯片连接,而是通过中间介质层紧凑而快速地连接,同时HBM内部的不同DRAM采用TSV实现信号纵向连接,从而可扩展更大的容量,并提供更低的功耗以及更小的体积。
目前第四代产品HBM3,速率则提高到了6.4Gbps,最大容量则增加到了24GB。HBM3所提供的内存带宽对实现下一代高性能计算、人工智能和百万兆级系统至关重要。基于过去两年存储行业低迷的行情,生成式AI的横空出世直接引爆了HBM3的市场需求,进而带动2023年三季度开始存储器全行业的复苏。生成式 AI 需要同时访问和获取海量数据,并从大容量内存中汲取数据以做出适当响应。这需要美光第二代 HBM3 (HBM3E)、高密度 DDR5 DRAM 和 TB 级 SSD 存储等技术,以满足在云端进行生成式 AI 训练和推理所需的速度和容量。美光的HBM3E内存采用了eight-tier布局,每个堆栈的容量达到了24 GB,可以实现每秒1.2 TB的传输速度。与此同时,它采用了先进的1β技术,这意味着制造工艺更加先进,有望提供更高的性能和效率,并降低制造成本。
生成式AI技术的火爆也开始逐渐蔓延到智能手机产业,随着高通和联发科技纷纷发布最新主打面向生成式AI的新旗舰SoC,智能手机产业将在2023年底正是迈向生成式AI时代,并在未来一两年内成为旗舰手机的标配。生成式AI的加入,让智能手机的存储需求大幅提升,这就提供给美光LPDDR5X更多的实战空间。对手机等终端设备而言,提供平衡的功耗和性能是助力 AI 驱动用户体验的关键,美光最新推出拥有9600Mbps的LPDDR5X内存让手机拥有更快的处理速度,能满足手持高性能生成式 AI 设备所需的速度和带宽。值得一提的是,美光的新一代LPDDR5X采用了最新的1β工艺,能够实现单颗16GB的封装容量,同时整体能耗将会降低30%,美光也将PC内存上常用的动态电压和频率调节带到了移动端。
其实,美光不仅提供关键的生成式 AI 内存和存储解决方案,还将 AI 应用于公司内部的硅制造流程。硅制造流程非常复杂,需要耗时数月,涉及约 1,500 道工序。美光将前沿 AI 技术应用于制造流程的全部工序,显著提高了准确性和生产效率。这样做不仅能提高产量、良率与质量、提供更安全的工作环境、改善效率,还能助力公司推进可持续发展。
无论是制造业、汽车、科学还是其他应用领域,生成式 AI 及其衍生技术都将以超乎人类想象的方式塑造未来,而美光在驱动您的穿戴、手持和云端设备数据中扮演着核心角色。