首页
联想陈振宽：通过万全异构智算平台，联想迎接AI 2.0

联想陈振宽：通过万全异构智算平台，联想迎接AI 2.0

发布时间:2024-04-22

“身处以大模型作为基本特征的AI 2.0时代，我们面对多变的市场环境，需要持续进化核心能力，不断打造出满足人工智能和智算需求的核心技术，提供AI导向的基础设施产品组合。”在4月18日举办的联想创新科技大会（2024 Lenovo Tech World）上，联想集团副总裁、中国基础设施业务群总经理陈振宽说道。

就在创新科技大会上，联想正式发布了联想万全异构智算平台，并发起成立异构智算产业生态联盟。陈振宽在接受媒体采访时表示，基于“一横五纵”的战略布局，联想AI导向的基础设施将和联想万全异构智算平台充分融合，并携手异构智算产业生态联盟伙伴，共同助力中国智算生态的繁荣发展与创新。

联想集团副总裁、中国基础设施业务群总经理陈振宽

AI从1.0到2.0发生了什么？

如果根据模型来分的话，AI 1.0时代是以深度学习为代表，而到了2.0时代则主要关注大模型计算。

盘点AI 1.0时代，联想已经通过完善的基础设施组合，帮助中国客户赢得了发展先机。凭借强大的技术积累和创新能力，联想在去年2月打造了“联想问天”本地化服务器品牌，在服务器双品牌战略加持下，“联想问天”被赋予了“全球智慧+本地创新”的能力。基于对智能化转型前瞻性布局，同年8月，联想在中国算力大会发布了联想基础设施业务战略，即“AI赋智、绿色赋能”，打造AI导向的基础设施。

而进入AI 2.0时代，大模型强大的泛化能力和生成能力，推动着人工智能向更多元的应用场景、更深层次的业务流程中走去，带动着中国智算产业迅猛发展。与1.0时代不同，AI 2.0时代用户在AI基础设施领域面临四大挑战。

第一大挑战是如何选择和匹配算力。不同的算法框架。不同的算子库、GPU、服务器、存储和网络的组合，需要进行完整的验证，这使得技术繁杂且周期长。

第二大挑战是如何减少故障中断时间。陈振宽强调，目前千卡集群每月至少有15次的故障断点。在常规的断点续训手段下，每次恢复训练需要几个小时，产生的额外费用超过百万元。随着AI集群规模从千卡到万卡，故障中断次数及恢复所需时间呈指数级增长。

第三大挑战是如何改善AI算力利用率。陈振宽引用行业通用的指标MFU（模型算力利用率）来作阐述，他指出当前业内MFU普遍在30%左右，顶尖的集群利用率也只能做到50%。行业需要解决GPU卡利用率，集群通讯效率，AI故障恢复，算法匹配度等系统性问题。

第四大挑战是如何突破散热瓶颈，降低数据中心PUE。尤其是在算力升级带来的能耗飙升的情况下，如何通过先进的散热技术，突破芯片在系统中的散热瓶颈，同时提升能效，降低数据中心PUE。

联想的“一横五纵”

联想执行副总裁兼中国区总裁刘军曾在2024 MWC上，首次介绍了联想“一横五纵”的战略布局。“一横”，是指异构智算平台，能够对通用计算集群、科学计算集群和AI算力集群进行统一管理，并且能通过对多种CPU、GPU、DPU等处理器的异构管理调度，大幅优化算力的使用效率，帮助用户简捷、高效地使用算力资源。“五纵”则是指服务器、存储、软件及超融合、数据网络以及边缘基础设施产品和方案。

为了解决AI 2.0的挑战，联想万全异构智算平台正在从五大方面进行创新。

首先，用户智能匹配算力的算力匹配魔方。基于海量的硬件评测和AI算子算法集成工作，联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库，来标识AI场景、算法、集群配置这三者的匹配关系。用户只需输入场景和数据，算力魔方即可自动加载最优算法，并调度最佳集群配置。

其次，逼近GPU算力极限的GPU内核态虚拟化。联想研究院开发了在GPU驱动层的内核态虚拟化算法，新算法可以将虚拟化造成的GPU算力损耗降到5%以下，极致情况可以降到1%以下，大幅提升GPU利用率。

第三，提升网络通信效率的联想集合通信算法库。可实现对多类型网络拓扑的实时感知，并以先进算法使数据在拓扑中以最佳路径进行传输。以千卡规模集群为例，采用集成了联想集合通信库的联想异构智算平台做管理调度，可使网络通信效率提升超10%，并且集群规模越大，效果越显著。

第四，减少AI训练中断时间的AI高效断点续训技术。联想异构智算平台对大量的AI训练故障进行了特征采样，开发了预测AI训练故障的AI模型，实现“用AI来预测AI”。在断点前提前优化备份，由此能将断点续训恢复时间缩减到分钟级，大幅提升了训练效率，以千卡集群为例，每月可节约上百万元算力费用支出，让宝贵的AI算力持续可用。

第五，AI与HPC集群超级调度器。这是针对混合集群做资源共享的前沿技术。联想AI与HPC超级调度器架构于AI和HPC调度之上，能够切换AI和HPC的调度沟通，能全局监控任务和动态共享资源，使得用户可以充分利用基础设施的每一分算力。

“‘一横五纵’的布局，是在服务器双品牌战略以及联想‘全栈AI’战略基础上的进一步升级。基于五大产品面向AI的升级，再加上联想万全异构智算平台，这是联想AI基础设施核心竞争力的充分体现。”陈振宽表示。

异构智算产业生态联盟

站在当下AI高速发展的十字路口，陈振宽认为，中国已经成为人工智能创新应用高地，人工智能是发展新质生产力的重要引擎。百花齐放的人工智能应用，需要完整的人工智能生态圈。生态圈中每一个层级都有非常高的壁垒，需要持续大量投入实现创新。联想作为生态圈里基础设施层的一员，正在聚焦三大核心领域，完善AI导向的基础设施。

为此，联想发起成立异构智算产业生态联盟，其优势在于联想能够以链主企业的责任，携手智算产业上下游，让新老伙伴在统一的目标和环境体系下，围绕同一个目标，齐心协力、各取所长，向共同的目标齐头并进，共同推动人工智能规模化落地，共促中国智算产业的繁荣发展。

异构智算产业生态联盟旨在携手成员共同建设一个分工合作、规范有序、安全健康的智算产业生态，加速大模型推动的智算产业化进程，推动AI基础设施的融合发展，共同提升中国智算产业的水平。异构智算生态联盟成立之后，将持续筹备异构智算相关专家研讨会、异构智算联盟高峰论坛等活动，深入探讨异构智算最新产业趋势、研究成果和创新方向。

目前，异构智算生态联盟首批共计16家成员单位，包括10家国产AI芯片厂商。生态联盟成立后，将陆续发布异构智算最新成果，计划推动《国际人工智能算力性能排行榜——AIPerf500》评选，共创及发布《异构智算白皮书》以及《2024国家行业发展报告（智能计算方向）》等内容，引导中国智算产业健康发展。

“智算产业的高速繁荣发展，离不开人工智能产业中每一个努力拼搏，不断创新的企业。联想将持续秉持合作共赢的理念，愿与众多优秀的伙伴们一道，加大资源投入，深耕场景，打磨产品，为中国智算产业的蓬勃发展提供坚实基础。”陈振宽表示，未来联想将持续强化与生态伙伴的合作，共同投入，坚持创新，持续升级万全之力，释放AI无限潜能，为中国智能化转型提速。

文章来源于:电子工程世界原文链接

本站所有转载文章系出于传递更多信息之目的，且明确注明来源，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。

平台入驻

我们与500+贴片厂合作，完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页，多渠道推广，SEM/SEO精准营销以及与公众号的联合推广...详细>>

原厂代理商合作

利用葫芦芯平台的卓越技术服务和新产品推广能力，原厂代理能轻松打入消费物联网（IOT）、信息与通信（ICT）、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

闲置物料合作

充分利用其强大的电子元器件采购流量，创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术，不仅可以助你轻松识别与连接到需求方，更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

生态合作

我们的目标很明确：构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前，我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

加工与定制类服务商合作

我们深知加工与定制类服务商的价值和重要性，因此，我们倾力为您提供最顶尖的营销资源。在我们的平台上，您可以直接接触到100万的研发工程师和采购工程师，以及10万的活跃客户群体...详细>>

线上代理合作

凭借我们强大的专业流量和尖端的互联网数字营销技术，我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品，都可以通过我们的平台迅速传达给目标客户...详细>>

邮件营销及广告服务

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环，从引流、宣传到最终销售，全程跟进，确保每一个potential lead都得到妥善处理，从而大幅提高转化率。不仅如此...详细>>