联想陈振宽:通过万全异构智算平台,联想迎接AI 2.0

2024-04-22  

“身处以大模型作为基本特征的AI 2.0时代,我们面对多变的市场环境,需要持续进化核心能力,不断打造出满足人工智能和智算需求的核心技术,提供AI导向的基础设施产品组合。”在4月18日举办的联想创新科技大会(2024 Lenovo Tech World)上,联想集团副总裁、中国基础设施业务群总经理陈振宽说道。


就在创新科技大会上,联想正式发布了联想万全异构智算平台,并发起成立异构智算产业生态联盟。陈振宽在接受媒体采访时表示,基于“一横五纵”的战略布局,联想AI导向的基础设施将和联想万全异构智算平台充分融合,并携手异构智算产业生态联盟伙伴,共同助力中国智算生态的繁荣发展与创新。

image.png

联想集团副总裁、中国基础设施业务群总经理陈振宽


AI1.0到2.0发生了什么?


如果根据模型来分的话,AI 1.0时代是以深度学习为代表,而到了2.0时代则主要关注大模型计算。


盘点AI 1.0时代,联想已经通过完善的基础设施组合,帮助中国客户赢得了发展先机。凭借强大的技术积累和创新能力,联想在去年2月打造了“联想问天”本地化服务器品牌,在服务器双品牌战略加持下,“联想问天”被赋予了“全球智慧+本地创新”的能力。基于对智能化转型前瞻性布局,同年8月,联想在中国算力大会发布了联想基础设施业务战略,即“AI赋智、绿色赋能”,打造AI导向的基础设施。


而进入AI 2.0时代,大模型强大的泛化能力和生成能力,推动着人工智能向更多元的应用场景、更深层次的业务流程中走去,带动着中国智算产业迅猛发展。与1.0时代不同,AI 2.0时代用户在AI基础设施领域面临四大挑战。


第一大挑战是如何选择和匹配算力。不同的算法框架。不同的算子库、GPU、服务器、存储和网络的组合,需要进行完整的验证,这使得技术繁杂且周期长。


第二大挑战是如何减少故障中断时间。陈振宽强调,目前千卡集群每月至少有15次的故障断点。在常规的断点续训手段下,每次恢复训练需要几个小时,产生的额外费用超过百万元。随着AI集群规模从千卡到万卡,故障中断次数及恢复所需时间呈指数级增长。


第三大挑战是如何改善AI算力利用率。陈振宽引用行业通用的指标MFU(模型算力利用率)来作阐述,他指出当前业内MFU普遍在30%左右,顶尖的集群利用率也只能做到50%。行业需要解决GPU卡利用率,集群通讯效率,AI故障恢复,算法匹配度等系统性问题。


第四大挑战是如何突破散热瓶颈,降低数据中心PUE。尤其是在算力升级带来的能耗飙升的情况下,如何通过先进的散热技术,突破芯片在系统中的散热瓶颈,同时提升能效,降低数据中心PUE。


联想的“一横五纵”


联想执行副总裁兼中国区总裁刘军曾在2024 MWC上,首次介绍了联想“一横五纵”的战略布局。“一横”,是指异构智算平台,能够对通用计算集群、科学计算集群和AI算力集群进行统一管理,并且能通过对多种CPU、GPU、DPU等处理器的异构管理调度,大幅优化算力的使用效率,帮助用户简捷、高效地使用算力资源。“五纵”则是指服务器、存储、软件及超融合、数据网络以及边缘基础设施产品和方案。


为了解决AI 2.0的挑战,联想万全异构智算平台正在从五大方面进行创新。


首先,用户智能匹配算力的算力匹配魔方。基于海量的硬件评测和AI算子算法集成工作,联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库,来标识AI场景、算法、集群配置这三者的匹配关系。用户只需输入场景和数据,算力魔方即可自动加载最优算法,并调度最佳集群配置。


其次,逼近GPU算力极限的GPU内核态虚拟化。联想研究院开发了在GPU驱动层的内核态虚拟化算法,新算法可以将虚拟化造成的GPU算力损耗降到5%以下,极致情况可以降到1%以下,大幅提升GPU利用率。


第三,提升网络通信效率的联想集合通信算法库。可实现对多类型网络拓扑的实时感知,并以先进算法使数据在拓扑中以最佳路径进行传输。以千卡规模集群为例,采用集成了联想集合通信库的联想异构智算平台做管理调度,可使网络通信效率提升超10%,并且集群规模越大,效果越显著。


第四,减少AI训练中断时间的AI高效断点续训技术。联想异构智算平台对大量的AI训练故障进行了特征采样,开发了预测AI训练故障的AI模型,实现“用AI来预测AI”。在断点前提前优化备份,由此能将断点续训恢复时间缩减到分钟级,大幅提升了训练效率,以千卡集群为例,每月可节约上百万元算力费用支出,让宝贵的AI算力持续可用。


第五,AI与HPC集群超级调度器。这是针对混合集群做资源共享的前沿技术。联想AI与HPC超级调度器架构于AI和HPC调度之上,能够切换AI和HPC的调度沟通,能全局监控任务和动态共享资源,使得用户可以充分利用基础设施的每一分算力。


“‘一横五纵’的布局,是在服务器双品牌战略以及联想‘全栈AI’战略基础上的进一步升级。基于五大产品面向AI的升级,再加上联想万全异构智算平台,这是联想AI基础设施核心竞争力的充分体现。”陈振宽表示。


异构智算产业生态联盟


站在当下AI高速发展的十字路口,陈振宽认为,中国已经成为人工智能创新应用高地,人工智能是发展新质生产力的重要引擎。百花齐放的人工智能应用,需要完整的人工智能生态圈。生态圈中每一个层级都有非常高的壁垒,需要持续大量投入实现创新。联想作为生态圈里基础设施层的一员,正在聚焦三大核心领域,完善AI导向的基础设施。


为此,联想发起成立异构智算产业生态联盟,其优势在于联想能够以链主企业的责任,携手智算产业上下游,让新老伙伴在统一的目标和环境体系下,围绕同一个目标,齐心协力、各取所长,向共同的目标齐头并进,共同推动人工智能规模化落地,共促中国智算产业的繁荣发展。


异构智算产业生态联盟旨在携手成员共同建设一个分工合作、规范有序、安全健康的智算产业生态,加速大模型推动的智算产业化进程,推动AI基础设施的融合发展,共同提升中国智算产业的水平。异构智算生态联盟成立之后,将持续筹备异构智算相关专家研讨会、异构智算联盟高峰论坛等活动,深入探讨异构智算最新产业趋势、研究成果和创新方向。


目前,异构智算生态联盟首批共计16家成员单位,包括10家国产AI芯片厂商。生态联盟成立后,将陆续发布异构智算最新成果,计划推动《国际人工智能算力性能排行榜——AIPerf500》评选,共创及发布《异构智算白皮书》以及《2024国家行业发展报告(智能计算方向)》等内容,引导中国智算产业健康发展。


“智算产业的高速繁荣发展,离不开人工智能产业中每一个努力拼搏,不断创新的企业。联想将持续秉持合作共赢的理念,愿与众多优秀的伙伴们一道,加大资源投入,深耕场景,打磨产品,为中国智算产业的蓬勃发展提供坚实基础。”陈振宽表示,未来联想将持续强化与生态伙伴的合作,共同投入,坚持创新,持续升级万全之力,释放AI无限潜能,为中国智能化转型提速。

文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。