银行智算中心部署浪潮AIStation,模型训练效率提升7倍

发布时间:2023-01-03 14:26  

随着金融数字化转型加速推进,银行需要提供更高质量、更快速的金融服务,对银行智算中心的能力提出了更高要求和挑战。多样化智能计算场景需要多元化的算力供给,如巨量化模型、数据和应用规模需要巨量算力,不同尺度作业需要灵活且精细化算力管理。随着计算集群规模不断激增,以及异构计算资源、高性能网络快速发展,如何满足不同AI负载针对网络、存储、异构算力等需求,是银行面临的关键问题。

浪潮信息在与某大型国有银行的合作中发现,当前银行智算中心主要支持在线推理服务,应用场景近1000种,但同时缺乏大规模分布式、大模型训练算力基础设施所需的资源管理和开发平台,导致某些业务的模型迭代周期较长。同时由于业务部门分散,缺乏有效的算力统一管控平台。

浪潮智能业务生产创新平台AIStation通过不断的技术创新与实践,将大规模GPU并行计算优化能力与AI算力池化智能化调度结合起来,成功将典型AI模型的训练周期由1周缩短为1个工作日,支持银行AI业务场景快速上线,已在大型国有银行落地。本文将阐述浪潮如何在具体业务场景下帮助银行智算中心快速构建AI生产创新平台,实现高性能、高可靠、高扩展。

全生命周期管理的AIStation平台,助力银行业务创新

完备的任务全生命周期管理能更好地支持银行智算中心,帮助开发者快速使用算力,协助管理者管好资源,实现业务快速创新。

AIStation平台提供了作业全生命周期管理,能够让开发者跟踪作业状态、为训练优化提供必要的信息、分析平台资源使用率状态、帮助制定资源使用率提升方案。同时提供完备、高效的异构计算资源管理,从数据加速、网络优化、业务系统无缝对接等维度保障银行业务,实现开发者便捷无感知的开发模式和管理者高效可控的管理模式。

便捷高效异构计算管理,充分发掘算力价值

目前异构人工智能芯片发展迅速,越来越多银行智算中心正在从传统架构迁移至异构算力架构,但面临异构芯片种类多、管理复杂、开发门槛高等难题。

针对异构算力资源接入与管理,AIStation平台建立了加速卡管理模型,可以实现零业务代码修改和异构算力资源接入、配额管理、算力使用的配置化流程,以及异构加速卡的类型识别、算力识别。同时提供报表统计、监控告警功能,使平台管理员能够获取异构算力的健康状态及使用情况,可以通过配置化的方式实现异构算力资源的接入和管理。目前,AIStation已经适配了超20款当前市场主流不同架构的加速卡,具有良好的适配性和通用性,能够充分满足不同业务场景对银行智算中心的算力要求。

镜像分发加速,降低分布式任务的环境准备时间

通常情况下,计算集群在为训练任务分配了资源后,节点将准备环境(如下载作业镜像),此时加速卡算力资源处于完全空置状态。尤其是分布式作业涉及多个计算节点并发下载镜像,对镜像仓库产生较大压力,导致镜像下载较慢甚至失败,严重浪费了算力资源。

AIStation提供了镜像P2P分发加速功能,能在无需新增硬件的情况下实现镜像分发加速。镜像仓库仅提供一次下载带宽,镜像加速系统即可在计算节点缓存镜像数据,并为其他计算节点的镜像下载提供数据服务,同时提供节点数线性相关的镜像网络总带宽,有效降低了分布式任务的环境准备时间。实测证明可将耗时降低至原来的1/2。

此外,AIStation具有节点数据缓存功能,可以仅进行一次性存储系统读取,依靠本地高速磁盘消除网络传输时延,极大提高了存储IOPS,加速训练效率,能够将典型AI模型的训练周期由1周下降为1个工作日。并且AIStation在缓存机制基础上提供了缓存生命周期管理,在磁盘使用率不高时尽可能缓存数据,同时实现数据亲和性调度。

大规模分布式作业的另一大挑战是异常故障处理。由于分布式任务使用了更多的资源,因而更容易受到硬件、网络等故障的影响,进而引发训练中断。一般来说,分布式任务异常处理需要人工介入操作,时效性无法保障,并且还需要一定的人工经验判断任务失败的具体原因和解决方法,对算法人员的要求较高。AIStation平台提供了完备的故障检测识别、任务容错的机制,在故障发生时能够识别当前故障类型,对于通过重启即可恢复的故障(如加速卡故障、网络故障等),平台自动触发训练任务的重提。AIStation通过自动化流程,提高了故障处理效率,节省了集群机时资源,提高了资源利用率。

领先网络方案,实现GPU资源灵活调度

银行智算中心网络构建方案目前有很多,其中RoCE网络基于以太网协议实现RDMA,可以复用已有数据中心的网络设备,从而降低集群搭建成本。基于RoCE的网络方案,需要充分考虑GPU资源的协调调度,实现物理主机GPU的共享使用,来满足训练任务任意GPU数的需求,同时也需将RDMA网卡透传到容器内,以满足跨节点GPU的RDMA通信需求,但是目前还没有一个有效的解决方案。

浪潮提出基于RoCE网卡虚拟化和网络互通性管理相结合的解决方案,实现了在容器云平台上对RoCE网络的快速接入适配,同时降低网络适配难度。方案已部署到某大型国有银行的实际生产环境中,帮助客户解决了GPU资源碎片的问题,实现RoCE网络下GPU资源灵活调度分配,实际效果超出了客户预期。

1.jpg

• RoCE网卡虚拟化:对于AI训练网络,存在多种实现网络设备共享的方案,例如MacVLAN、Calico、Flannel、SR-IOV等。考虑到RoCEv2实现RDMA通信的机制,我们选择了SR-IOV技术,通过SR-IOV将宿主机的物理RoCE卡(PF)虚拟化为多个RoCE网卡(VF),实现了一对多的场景要求。

• 网络拥塞控制:基于AI平台运行训练任务时,任意节点GPU都可以与其他节点GPU进行通讯,这必然会出现网络流量 “多打一”的场景。为了保证RDMA网络高带宽、低延时,必须解决拥塞问题实现无损传输。AIStation提供交换机测、宿主机侧、容器侧的流控管理配置,从而避免网络拥塞导致训练性能下降。

• 网络互通性管理:目前大部分AI训练任务都是基于NCCL提供训练加速,但基于NCCL架构的方案,只会关注本机的GPU与本地RDMA网卡信息,并不会考虑是否与远端的RDMA网卡能正常通信。RoCEv2是基于UDP协议实现RDMA通信,此时需要发送端和接收端的RoCE网卡都能够正常通信,否则不同节点GPU无法基于RoCEv2实现RDMA通信。AIStation基于自研的网络互通性管理功能,保证了集群中任意GPU间互通性。

性能测试表明,在浪潮AIStation平台容器内基于不同网卡进行通讯时,在不同的数据包大小下,性能和时延都没有损失。针对银行业务特点,AIStation测试了大规模图像类别训练任务,采用ResNet50并使用ILSVRC 2012数据集测试加速比,结果显示大规模分布式训练的加速比达94%以上,性能优异。同时物理主机RDMA网卡能够透传到容器并能够基于RoCEv2完成RDMA通信,在有多个RoCE网卡时,能够根据GPU与高性能网卡的拓扑关系、NCCL亲和性等选择最优的RoCE网卡进行跨节点通信。

2.jpg

强大的平台对接能力,实现用户业务无缝对接

银行业务具有多样化和精细化的特点,在进行AI业务时一般需要多个系统支撑与协同,包括数据采集系统、数据处理系统、AI开发训练系统、模型管理系统、推理服务系统、运营管理系统等。虽然内部通用平台能够把各个系统整合起来,但AI开发训练系统中的AI资源管理、AI单机和分布式训练任务全生命周期管理、异构算力管理等方面能力是欠缺的,很难达到AI业务需求。

3.jpg

针对银行内部复杂的系统、业务流程,AIStation平台提供了通用的AI业务调用接口能力,以达到简化流程和整合能力的目的。同时兼容异构资源任务,让银行无需关心底层资源部署和连接情况,把精力放在业务处理上。AIStation平台提供了涵盖任务、数据全生命周期管理、集群资源监控和报表的全能力域API接口,帮助管理者掌握集群运行情况。同时平台API管理实现了全程加密传输以保证数据安全。通过丰富、完备且安全的API接口,AIStation能够快速与银行已有系统集成,让银行快速拥有专家级AI算力基础设施管理能力。

总结

浪潮AIStation在某大型国有银行的实践中取得了显著的示范效果。通过以上关键技术实现了GPU间通信性能大幅提升,减少节点间网络通信开销,提升整体处理性能,有效降低总能耗。同时可以减少机柜占用,提高集群算力密度,实现基础资源降本增效。助力构建高性能、高可靠、可扩展的软硬件系统架构,实现AI训练场景下算力资源的统一管理与智能化调度。

浪潮AIStation为银行前沿的大规模人工智能模型开发训练和场景应用打下了坚实的技术基础。未来,浪潮信息将继续通过全栈智算能力赋能金融AI业务创新,推进金融数字化转型和数字经济高质量发展。

文章来源于:ECCN    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    趋势,共同见证Smartbi如何凭借指标驱动和智能决策成为引领数字化运营的新航标。后疫情时代,BI发展趋势的观察与应对在发布会上,思迈特CEO吴华夫在开场致辞中表示,当前大环境背景下,数字化......
    比亚迪与西门子达成战略合作,推进企业数字化转型;西门子数字化工业软件与中国汽车制造企业、新能源汽车厂商比亚迪达成战略合作伙伴关系,通过完整的西门子解决方案助力比亚迪构建数字化企业战略,借用数字双胞胎技术为其产品开发及生产运营决策......
    化转型;此外,由京东方牵头,中国工商银行、中国银行软件中心等单位共同编制的国内首个金融网点智能化改造团体标准《物联网智慧银行网点管控系统技术要求》已于近期正式发布,为银行......
    解决方案丨法大大电子签:智慧银行建设背后的“助推器”;随着互联网技术的不断发展,银行业正在经历一场前所未有的数字化革命,平台搭建、场景化金融、在线金融逐渐成为商业银行转型智慧银行的发力点。而电子合同在银行......
    的颗粒度数据分析工具和统一管理大屏对海量监控数据进行深度挖掘与分析,为管理人员提供了直观、精准的数据支持,不仅帮助管理者及时发现潜在问题,优化运维策略,还为该区信息化基础设施的长远规划与决策提供了科学依据,助力该区打造成为智慧城市的典范。江天数据x金融,绿色低碳践行可持续发展某银行......
    代化,以满足服务和网络保障要求,并持续进行数字化转型和创新提出建议,并且认为华为AUTIN和SmartCare解决方案,具备先进的服务和网络保障能力,能够支撑运营商持续进行数字化转型。 华为的AUTIN......
    自动驾驶究竟需要什么样的仿真?;仿真对于自动驾驶的重要性已不言而喻,自动驾驶的仿真通过数学建模的方式将实际的应用场景进行数字化还原,建立尽可能接近真实世界的系统模型,无需实车直接通过软件进行仿真测试便可达到对自动驾驶系统......
    沉浸式的训练模型,获得不同情景下的关键指标并做出明智的决策。客户使用AmazonSimSpace Weaver可模拟出100万个以上、实时交互的仿真对象,创建比以往更加复杂的环境,并且将模拟仿真系统......
    Weaver免去了客户管理基础设施的负担,简化了运行大规模模拟仿真系统的方式,让他们能专注于创建差异化内容,不断扩充模拟仿真的使用场景。无论客户的目标是模拟超大城市的人口,追踪大洲范围的物流运营,或是为智慧城市构建现实世界规模的数字......
    ,使能人人用数,聚焦深化业务新场景。 华为常务董事、华为云CEO张平安发表主题演讲 华为云GaussDB(DWS), 构建高价值数据智能核心数字化浪潮下,数据仓库、容器、微服务等技术飞速发展,云原......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>