在2023年于杭州举办的云栖大会论坛现场,阿里云高级技术专家、客户系统稳定性工程师刘清龙,与越秀地产架构师张可,共同分享了名为《公共云云上业务稳定性建设实践》的主题演讲,从阿里云客户稳定性工程师,与合作企业架构师双视角,介绍了阿里云基于云上分布式的技术设施,结合云上稳定性实践经验,对云上业务稳定性体系建设进行系统讲解。
新技术也面临新挑战
在数字产业蓬勃发展的当下,我国云计算市场仍处于快速发展期,根据2023年工信部数据显示,目前我国上云企业累计超过380万家,仍有较大发展空间。预计 2025 年我国云计算整体市场规模将超万亿元。随着客户云上业务规模越来越大,迭代速度越来越快,系统复杂度越来越高,如何保障云上业务稳定性这个话题也变的愈发重要。
刘清龙介绍自己岗位目前是一名客户稳定性工程师(简称CRE),负责对接阿里云客户稳定性建设需求和故障应急响应,这也是一个近年来因为云技术发展而新生的岗位,刘清龙也是国内第一批客户稳定性工程师(简称CRE)。
客户稳定性工程师的使命
随着云服务的不断发展,越来越多的企业将核心业务迁移到云端,以降低运维成本、提高业务灵活性和可扩展性。云计算在业务稳定性方面的优势越来越受到企业和开发者的关注,如何在云上提高客户的业务稳定性变为云厂商要努力的方向。阿里云因此设立了客户稳定性工程师这个角色,基于客户的视角和立场来提高业务在云上的稳定性。(从tam到cre)
云上稳定性工程师(简称CRE)负责帮助客户建设云上稳定性体系,稳定用云;建设应急体系,云上应急;践行行业最佳用云实践,用云标准。作为CRE他们需要具备极高的专业性,熟悉云计算平台的各种功能和性能指标,能够与客户沟通,快速、精准找到企业痛点,发现问题并解决问题,以确保企业云端业务的稳定运行。
在演讲中,刘清龙将影响企业云上稳定的原因分为以下几类:
业务系统:企业遗留债务重,很多系统上下游关系不清楚,运行现状不清
架构老化:企业很多应用还是单点架构,很难使用容器类弹性的能力
成本压力大:企业客户没有人力成本、时间成本、费用成本进行大刀破斧的改造
运维资源少,体系不健全:2到3人小组承担了业务、云资源、发布的全部工作
没有实践与演练:稳定性存在未知,总会有“异常”情况发生
办法一定比困难多
遇见问题就想办法解决问题,刘清龙认为CRE这个岗位就是在不稳定中寻求最稳定,在信息交错中直击要点,同时他们面对这项复杂工作背后的底气,更多是能基于阿里云的强大架构支持来解决客户在使用阿里云服务过程中遇到的问题。
阿里云有较为完善的云上分布式技术设施,能够进行容量、容错、容灾运维调度,落地稳定性建设,在容量上做好容量评估,流量管控;在容错上做好链路跟踪,服务治理;在容灾上做好异地部署,支持容灾演练;实现全局架构的高可用,做到高可用的可观测行,业务的流量调度,高可用的演练。
不存在永不出错的技术架构,也不存在能包容所有底层问题的业务架构,通过从CRE先动到一起联动,从简到难的原则,连接来打通客户屏障与技术的壁垒,有针对性解决企业痛点问题,在客企业资源有限的背景下,尽量解决稳定性的各类隐患。
安全治理
刘清龙首先安全治理是重要的一步,他认为:“对于任何一家提供云服务的公司来说,安全都是首要任务。信息安全问题随着系统数量的增长,发生频率越来越高,无论是数据泄露、系统被黑、还是资源盗用,都会造成企业资金上、商誉上的重大损失;CRE与企业对接沟通,识别风险,通过构建全面的网络安全综合防护体系,包括网络安全等级保护、关键信息基础设施安全保护、数据安全保护等,确保企业客户的业务数据安全。”
信息互通
接下来的话题是信息互通的价值。他说: “在当今的数字化时代,信息的流通与交换对企业的发展至关重要。信息互通才是稳定性建设的根基,信息系统运维等级建设是技术架构、运维资源投入和运维精细化管理的基础,是快速处理信息系统服务中断事件的重要依据。通过对现有信息系统整理和分类, CRE更了解客户业务、让客户更了解云,才能提升在云上的“安全感和稳定性”。
通过加强云原生、、大数据等技术同基础设施平台的融合,实现业务信息对齐、云资源信息同步、云上风险预警、达到业务信息联动。”当有了信息的互通后,我们为了信息的准确,和更新高效,第三步便是探索流程的互通;
流程对接
刘清龙详细介绍了流程对接的实施过程,他认为:“阿里云拥有完备的团队研发运维流程机制,以及技术同学的良好意识和能力,这些都是团队稳定性建设思路的重要组成部分。
在组织流程上:阿里云CRE会通过定期会议对齐一些业务变动大促护航等信息、云产品能力,保证双方的信息是准确的;在系统流程上: CRE尝试通过不同手段将双方在系统层面打通,提升应急效率。
基于阿里云多场景互联互通的不断探索,通过稳定流程系统等级建设,企业能够在制定业务系统稳定性的目标同时,规范管理公司信息系统服务中断事件处理流程,并进一步提升系统的可用性和运维效率。
演练验证
有了信息和流程后需要一个比较好的方式进行验证和发掘企业云上不稳定因素的核心痛点;那就是演练。防火的最高境界是,防患于未然。
故障演练是提升系统和服务稳定性的重要手段之一,通过模拟真实故障场景,能够及时发现系统存在的问题、强化应急响应的流程和技术能力、增加跨团队和供应商的合作和沟通能力,并最终提升企业上云体验。
与企业共建容灾演练的能力,通过云上故障演练能力的服务化,提高演练效率
从业务视角做到业务、服务、业务组件、云服务云资源、云可用区的不同层级的容演练
通过云的宕机、网络中断、单可用区不可用可以快速验证业务的容灾和容错能力,找到目前用云的风险点
在演练中,可以快速考验双方的业务、云资源的监控能力、主动通知能力,阿里云与客户之间的应急联动协调能力,业务的逃逸能力,云服务是否可以平滑飘走。
只有经得住验证的高可用才能在故障时起作用;演练过程发现的信息对齐不完成,流程对接有瑕疵,用云方式有不足等问题就将进行专项提升;
专项提升
目前阿里云稳定体系建设支持与服务支撑能力是可以根据客户业务痛点进行定制化支持;是可定制化,能够提供从上云前、上云中、上云后的全面服务能力,针对存量云上稳定运行的核心系统和准备上云的系统,拥有设计各类产品的方案、最佳实践、云上优化的能力。
通过演练发现风险点或者业务痛点进行针对性优化,让针对核心发展痛点能力,通过逐项优化,满足云上业务发展的诉求客户上云从权限、部署、可观测性、弹性等维度做到容量、容错、容灾的设计,清不断提升企业用云质量与稳定性。
越秀地产专项提升方案图示
双向连接,实现云上稳定性业务永不断连
这次演讲希望能够提供一种新的视角,从客户稳定性工程师(简称CRE)的与企业客户的视角来分析如何提升企业云服务的稳定性。通过阿里云云上稳定性体系建相互连接,促成云平台与企业客户双向连接,实现云上稳定性业务永不断连。
把一个大型云服务运营起来,运营稳定,本身就是一件极难的、门槛极高的活,只有保障了稳定性,才能帮助业务蓬勃增长,因此稳定性治理始终是工程师基本能力之一。
云计算是一个快速发展的领域,新的技术和工具不断涌现。稳定工程师需要保持对新技术的关注和学习,以便在需要时能够采用最新的技术来提高系统的稳定性。通过深入理解云服务的基础设施,掌握监控和诊断工具,具备良好的问题解决能力,以及关注最新的技术发展,来维护云上业务的稳定。这是一项充满挑战的工作,但也是一项至关重要的工作。
云上稳定性建设,推动企业信息化转型发展
云上稳定性建设是保障云计算服务可靠性和安全性的关键环节,是一个系统的基石,也是一个长期、持续化的建设过程,也是企业信息化建设中不可忽视的部分。需要通过实践经验的不断积累, 输出体系化的标准和流程,建立科学有效的稳定性评估提升量化标准,另一方面也需要不断提升数字化、工具化能力,让稳定性提升有数据可依托,让故障应急响应流程 从由人工驱动升级到由平台系统驱动,
凭借其深厚的技术积累和丰富的实践经验,阿里云也正在努力打造一个能够满足企业各种需求的云服务平台。未来,智能化稳定性解决方案、多云架构的稳定性管理和企业与服务提供商的深度合作将成为云上稳定性建设的重要趋势。企业需要积极探索和应用各种稳定性解决方案和技术手段,以提高自身的云上稳定性水平,从而更好地推动企业信息化建设的转型发展。