【导读】SRAM(静态随机存取存储器)作为一种传统存储方案,近两日相关概念连续点燃A股半导体板块。2月21日,SRAM概念股再度拉升,西测数据20CM涨停,北京君正、恒烁股份等个股盘中一度涨超10%,万润科技、东方中科等个股跟涨。
SRAM(静态随机存取存储器)作为一种传统存储方案,近两日相关概念连续点燃A股半导体板块。2月21日,SRAM概念股再度拉升,西测数据20CM涨停,北京君正、恒烁股份等个股盘中一度涨超10%,万润科技、东方中科等个股跟涨。
消息面上,谷歌TPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布,其新一代LPU在多个公开测试中,以几乎最低的价格,相比GPU推理速度翻倍。并且后续有三方测试结果表明,该芯片对大语言模型推理进行优化效果显著,速度相较于英伟达GPU提高了10倍。与GPU不同的是,的内存采用了SRAM。
据介绍,Groq的大模型推理芯片是全球首个LPU(Language Processing Unit)方案,是一款基于全新的TSA架构的Tensor Streaming Processor (TSP) 芯片,旨在提高机器学习和人工智能等计算密集型工作负载的性能。
虽然Groq的LPU并没有采用更本高昂的尖端制程工艺,而是选择了14nm制程,但是凭借自研的TSA架构,Groq LPU芯片具有高度的并行处理能力,可以同时处理数百万个数据流,并该芯片还集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。
根据官方的数据显示,Groq的LPU芯片的性能表现相当出色,可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力,并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。
Groq表示,基于其LPU芯片的云服务器在或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的,其每秒可以生成高达500个 token。
相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。
由于ChatGPT-3.5主要是基于NVIDIA的GPU,也就是说,Groq LPU芯片的响应速度达到了NVIDIA GPU的10倍以上。
Groq表示,相对于其他云平台厂商的大模型推理性能,基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。
但SRAM短期内能否彻底颠覆行业呢?不少存储界专业人士给出的答案是:No!
据了解,内存主要分为DRAM动态随机存储器和SRAM静态随机存储器。目前,HBM是AI芯片领域广泛使用的一种高性能DRAM。
与DRAM相比,SRAM的优点是速度快(高存取速度),但缺点同样明显,那就是太贵了。
根据Groq介绍,一张LPU配备一块SRAM,内存容量为230MB。一张LPU卡的售价超过2万美元。
有行业大佬测算得出,由于Groq的内存容量较小,在运行Llama-2 70b模型时,其往往需要350张Groq卡才足够,而英伟达的H100则只需要8张卡。
从价格来看,在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。这个性价比意味着SRAM暂时还无法颠覆HBM,LPU也不足以颠覆GPU。因此,有观点认为,GPU和HBM仍然是当前满足AI需求的最佳方案。
业内人士直言,Groq路径短期内不具备大规模使用的可能性,也就不可能颠覆GPU了。
免责声明:本文为转载文章,转载此文目的在于传递更多信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行处理。
推荐阅读: