浪潮信息与Intel联合发布AI通用服务器,可支持千亿参数大模型运行,灵活满足基于大模型的AI应用及云计算、数据库等通用场景,为企业大模型应用落地提供更高效的AI通用算力。
在北京举行的浪潮信息生态伙伴大会(IPF2024)上,浪潮信息服务器产品线总经理赵帅表示,浪潮信息与Intel联合发布AI通用服务器NF8260G7,在业界首次实现服务器基于通用处理器支持千亿参数大模型的运行。这为AI大模型在通用服务器的推理部署提供了很好的示范,这也使得大模型AI应用可以与云、大数据、数据库等通用场景实现更为紧密高效的结合,从而充分释放AI在各行业场景落地的广泛活力和强大能力。
当前,生成式人工智能技术迅猛发展,AI大模型在各行各业加速落地,推动智能化的发展和创新。未来所有的计算设备都需具备AI的能力,一切计算皆AI,面对多元化的AI大模型训练、推理、云、数据库等业务负载,需要更加智能的通用算力。而且在大量模型落地应用过程中,千亿级参数是智能涌现的基础,企业需要更高计算性能、更高内存带宽、更高扩展性的通用算力,以加速千行百业探索智能涌现。
AI通用服务器NF8260G7在2U空间支持4颗英特尔至强处理器,具有AMX(高级矩阵扩展)的AI加速功能,内存带宽1200GB/S,全链路UPI总线互连,传输速率高达16GT/s,能够更好满足千亿大模型低延时要求。英特尔至强处理器最新AMX功能可以让CPU运行用于AI的矩阵乘法计算,从而优化深度学习 (DL) 训练和推理工作负载,为int8、BF16等不同精度的大模型运行提供更加智能的通用算力。例如在LLM推理过程中,可以大幅提升模型响应速度,吞吐速度最高提升2.7倍。
作为一款2U4路服务器,NF8260G7采用高密度设计,支持16TB大内存容量,并支持12个PCIe5.0扩展,2张高性能AI加速卡,支持Multi-host网络,避免业务跨CPU访问,网络性能提升20%以上,为生成式AI提供更大参数量模型的推理和微调能力。框架和算法方面,NF8260G7支持PyTorch、TensorFlow等主流AI框架和DeepSpeed等流行开发工具,满足用户更成熟、易部署、更便捷的开放生态需求。同时,浪潮信息与英特尔的算法工程师团队紧密协作,实现在精度几乎无损情况下,将1026亿参数的源2.0大模型进行NF4归一化数据量化,模型容量缩小至1/4,同时通过 DeepSpeed 张量并行,并将卷积算子进行张量切分,提升4倍计算效率,业界首次实现单机通用服务器,即可运行千亿参数大模型。
浪潮信息服务器产品线总经理赵帅表示:"千亿参数,是大模型是否具备智能涌现能力的门槛。浪潮信息与英特尔经过大量的系统优化,联合设计AI通用服务器NF8260G7,在业界首次实现基于通用处理器支撑千亿参数大模型运行,具备非常重要的标杆示范意义。"
英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰表示:"我很兴奋看到NF8260G7可以把处理器的性能发挥到极致。在蓬勃发展的智能时代,企业大模型落地将加速千行百业的创新。英特尔提供了涵盖 XPU、软件在内的广泛技术栈,通过与浪潮信息的合作,我们能够为开发者和企业用户提供灵活、无缝、高效的平台,助力用户部署和加速其 AI 应用,推动用户业务的智能化变革。"