浪潮云海刘健:“一云多芯+云原生”是算力异构最优解

发布时间:2023-08-25 10:05  

浪潮云海秉承开放兼容、分层解耦的技术理念,面向全行业用户提供领先的私有云产品与解决方案,助力企业构建坚实云基座,实现数字化重构与转型。在金融领域的云原生和云计算建设过程中,浪潮云海积累了丰富的实践经验,凭借创新务实的实干理念,以客户需求为核心的服务意识,得到了行业和客户的广泛认可。

1.jpg
浪潮数据云计算方案总监刘健

本文系浪潮数据云计算方案总监刘健演讲实录,以下内容将从云计算的发展趋势、金融云的趋势及挑战、浪潮云海在云原生基础设施建设过程中的实践成果三部分进行相关经验的分享和观点的探讨。

一、云计算发展趋势:下一代云数据中心

目前,AI、5G、大数据这些词汇已和云计算密不可分,在这样的环境下,浪潮云海认为开放硬件、开放软件以及软硬件分层解耦已成为数据中心发展的重要趋势,同时,面对更为多样的计算场景,云计算体系架构的演进、模型即服务、多元算力的管理能力也成为下一代云数据中心的进化方向。

软硬件同步优化

为满足用户对产品性能和使用体验的需求,在倡导软硬解耦的基础上,浪潮云海同样关注软硬件的同步优化。在云计算领域,通过对硬件的深度优化,可大幅提升产品性能,以此解决软件层容器和虚拟化的损耗问题;通过DPU改变底层的高可用架构,从而实现虚拟机高可用的逻辑切换。

广泛的软硬件协同

计算系统架构的解耦和计算设备之间的互操作性是未来计算可持续发展的关键。在网络层面,硬件SDN和网络设备极易绑定,在解耦的阶段,通过云上软SDN和任意厂商网络设备,配合GPU和智能网卡加速,就可以做到解除绑定和性能提升;在存储系统层面,也可以通过同样的办法实现存储系统的加速;在安全层面,以DPU做加强,可实现计算机系统负荷的卸载。以上都是通过硬件优化来实现软件的性能提速。

模型即基础设施

随着ChatGPT的持续火热,模型已经和算力、算法一样,成为了下一代云的基础设施标准。但从归属划分上看,公有云上训练得到的模型仍属于公有云,只有在私有云上基于自己的数据进行训练,才能得到专属的大模型,这也是国内大型金融机构目前致力发展的方向。

多元算力

支撑新兴业务发展,助力多元算力场景。现在的数据中心从物理资源层上看基础设施更加多元,X86和ARM设备的混部已成为常态;用户对算力引擎的需求也囊括了虚拟化、裸机、容器,且这一状态将长期持续;算力类型上也从单纯的CPU向GPU、FPGA扩展。

二、金融云趋势及挑战

金融云发展趋势

金融云发展大致可分为三个阶段:IOE时代、业务云化时代、云原生时代。云原生能力又可概括为以下三点:应用的容器化,服务的Mesh化及Serverless。金融IT本质上是为组织和业务服务的,所以上层技术的变化往往源于组织架构的变迁。业务架构从单体、到服务化再到微服务架构,数据架构从统计分析到数据服务湖仓一体,技术架构对应发展到服务网格,最终形成组织架构和开发框架的变革。每个阶段组织架构和技术架构都需要匹配,这是一个逐步演进的过程。

金融云建设挑战

IaaS层的建设经验较为通用,但是PaaS层的建设则更加复杂,对此我们做出以下分析:

1.IaaS和PaaS都有明显的行业属性,如果一个云厂商卖给所有客户的PaaS都是一样的,则它是不具备行业属性的。每个行业的业务不同,要求的PaaS指标和组件也不同,标准化产品未必适用。

2.容器即服务,很多场景下用户认为PaaS不好用、不灵活是因为厂商将PaaS的基础设施跟PaaS的服务整合在了一起,极端情况可能是每个产品都附带了容器平台。对此,浪潮云海的建设经验是把PaaS的功能解耦出来,使之成为容器即服务。

3.在业务层的搭建过程中,我们建议用户建设一个统一的云基础设施,并选择业务可解耦的PaaS厂商,将解耦后的能力架设在统一的容器即服务平台上。

微服务体系的建设也存在多架构并存和逐步演进的过程:在微服务框架里面,Dubbo和SpringCloud是目前较为流行的应用分布式、微服务开发框架,在金融行业应用广泛;而Istio目前的发展趋势则是平台级别的服务治理框架,可进行无侵入的遗留系统微服务改造。当然,微服务架构的选择和平台规划、公司规划是密不可分的,同时也需要逐步去演进。

对于微服务的运维,我们建议将IaaS层和PaaS层打通,形成垂直运维体系。这里面临如下挑战:PaaS组件版本、开发框架多,不同的PaaS组件有不同的硬件资源,导致部署效率低;在业务数据网络隔离的情况下,如何解决PaaS的跨域使用。对此我们建议在网络分区的情况下,根据使用环境需求按需部署、按需编排,并构建统一发放的网络,把中间运维侧打通,通过运维网络将PaaS发放到不同的域里面去,通过就近部署、就近访问,统一运维,实现PaaS层的统一。

三、浪潮云海云原生基础设施创新与实践

目前,浪潮云海主要着力于建设云原生基础设施的底层,参考信通院发布的《云原生能力成熟度标准》,聚焦两个方向来开展工作:第一,技术架构,主要是资源管理、运维保障、研发测试等;第二,业务应用,主要是弹性、高可用、自动化、可观测等。

"一云多芯+云原生"

在金融云的建设实践中,"一云多芯"是金融行业云的一项重要的基础指标。一云多芯"可满足用户算力多样化需求,并且可有效规避算力孤岛;是打破小生态、构建大生态的关键纽带; 并且可有效降低供应链风险 。无论是从业务角度、技术角度,还是产业链角度,践行"一云多芯"已经成为当下及未来云计算产业发展的关键,是产业链相关厂商的必然选择,现在,能源、电力行业也对一云多芯提出了明确的要求。

浪潮云海认为"一云多芯+云原生"是解决算力异构的最优解,我们根据无状态和有状态两种业务形态总结出以下实践经验:

1.对于无状态应用,基本都基于Java开发,编译过程并不难,重新编译后的应用,都能运行在多芯集群里,对底层CPU或服务器并无太多限制;

2.对于有状态的数据,最重要的是保障数据库数据无丢失,不一定要追求一云多芯。但可以进行相关尝试,如在一云多芯环境中部署分布式数据库,可以用X86算力支撑primary集群或写操作,用非X86算力承载standby或者读操作,这是数据库一云多芯的一种实现方式。这种模式也可以应用在数据库层面的容灾建设中。

除了考虑业务形态,我们在实践过程中还总结了以下几个建设要点:

1.集群内的算力自动等价调度:因为不同架构服务器之间有算力的换算问题;对此,我们联合信通院及多家厂商,进行过算力自动等价调度测试;

2.流量切换:在实践中可通过网关切换来实现;

3.无感切换:目前我们的产品已经具备这种能力,用户底层基础设施的架构并不会影响上层业务运行,用户可基于不同架构的底层资源进行动态的调整和资源的调用。

微服务架构体系的建设

对于微服务架构体系的建设,如上提到,首先是开发框架的并存问题。对此,我们建议通过配置中心将各架构统管起来,先把共性的东西抽离出来,再进一步做融合。其次是多数据中心的问题,目前用户普遍都有多套数据中心,对此,可以通过级连的方式做管理,用总分总的模式进行管理。

高可用设计

下一代云的高可用设计在云原生层面不难实现,但并不是所有业务都是云原生的,这就使得难以从上层解决高可用的问题。作为基础设施厂商,我们提倡通过底层建设,即使不依赖云原生也能实现高可用。所以对于下一代的高可用架构,我们希望可以在这两个维度上来回切换,同时也希望能打通裸机和虚拟机的控制平面,实现多引擎间的高可用。这其中还有很多挑战,仍需逐步演进。

目前浪潮云海已经服务了15000多家客户,在各个行业全面开花,涵盖金融、能源、交通、医疗、企业、教育等关键领域,是客户数字化、智慧化转型的重要云底座。这其中包括国内最大规模的金融生产云,承载客户的双11业务;最大规模、芯片种类最多的省级政务云,承载4套公共应用服务,104个业务系统;以及汽车、轨交、科学计算实验室等多个千万级大项目。

文章来源于:ECCN    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    让应用实现全局自动部署和动态调整。 华为云CEO张平安 以自身实践为例,华为公司时延要求在30毫秒以内的热应用,需要部署在靠近用户的数据中心,以满足用户体验;时延在30毫秒以上的温应用和冷应用,可部署在西部云核心枢纽。经分......
    大模型、企业专属大模型、魔搭社区、API服务等。 阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇介绍,钉钉、天猫精灵等产品在接入通义千问测试后,变得聪明了很多。钉钉接入通义千问测试之后,可以......
    华为发布5.5G智能核心网解决方案,使能更多新商业;近日,由Informa Tech主办的5G核心网峰会在伊斯坦布尔举行。华为云核心网产品线总裁高治国发布了5.5G智能核心网解决方案,内嵌......
    智能核心网打造移动AI时代的三大入口,加速5G-A发展;近日,由Informa Tech主办的第九届5G核心网峰会在阿联酋迪拜举行。华为云核心网产品线总裁高治国联合产业伙伴发布了《核心......
    华为发布全球首个5.5G智能核心网,加速迈入智能世界;在MWC24 巴塞罗那期间,华为云核心网产品线总裁高治国在产品解决方案发布会上发布了5.5G智能核心网解决方案,2024是5.5G的商......
    智能核心网打造移动AI时代的三大入口,加速5G-A发展;近日,由Informa Tech主办的第九届5G核心网峰会在阿联酋迪拜举行。华为云核心网产品线总裁高治国联合产业伙伴发布了《核心......
    张勇:阿里云核心两件事,让算力更普惠、让AI更普及;阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇表示,让计算成为公共服务是阿里云始终不变的追求,未来核心要做好两件事情:第一,让算......
    张勇:阿里云核心两件事,让算力更普惠、让AI更普及; 4月11日,阿里巴巴集团董事会主席兼CEO、智能集团CEO张勇表示,让计算成为公共服务是阿里云始终不变的追求,未来核心要做好两件事情:第一......
    张勇:阿里云核心两件事,让算力更普惠、让AI更普及;4月11日,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇表示,让计算成为公共服务是阿里云始终不变的追求,未来核心要做好两件事情:第一......
    所未有的速度在短短14个月内完成了整合工作并转型为云核心网。该项目极大地改善了印尼Indosat用户的网络体验,特别是农村和偏远地区的用户。加里曼丹岛居民的平均下行速度将提高15%,而使用Facebook......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>