亿级数据、千条告警秒级处理!浪潮信息InManage智能管理10万+IT设备

发布时间:2024-10-21  

 随着数字化和智慧化的加速落地,数据中心的设备规模快速攀升。数据中心的Scale out给基础设施运维管理带来全新挑战。以拥有10+设备的大规模数据中心为例,面对每日产生高达近30TB的设备运行状态、亿级监控指标、数千条告警推送等,如何秒级反馈海量并发需求,保证管理平台稳定运行?如何避免将每秒近千条的大规模设备告警风暴强塞给客户,进行根因定位并避免误报、漏报?这些挑战正伴随服务器、存储和网络设备规模的持续增长,成为超大规模数据中心管理亟待解决的难题。

浪潮信息InManage是一款面向数据中心基础设施的智能管理平台,通过统一接口、协议,能够纳管多达400不同厂商、不同型号的服务器、存储、网络等机型,设备规模最多可达10万台,为超大规模数据中心运维提供智能均衡调度、实时精准告警等管理功能。浪潮信息InManage通过智能均衡作业调度平台,能够在秒级内处理超大规模数据中心亿级实时并发运维管理数据,并基于自研的告警管理框架,实现5秒内响应上千条告警风暴,显著降低告警误报与漏报的风险。InManage不仅创造了金融行业单一数据中心带外管理的最大纪录,还实现了数据中心基础设施全生命周期管理,整体运维效率提升两倍,为超大规模数据中心的稳定、高效运行奠定了重要基础。

10+超大规模设备集群管理,面临稳定性与实时性多重挑战

随着数据中心的规模化发展,服务器数量爆发式增长,数据中心设备规模从最初的1000台增加到10万台,规模扩大了100倍,涵盖了不同年代和厂商的服务器、存储、网络设备等,设备种类多,内存、电源、硬盘、风扇等各类故障发生的不确定性大。对于不同设备的统一管理,一般运维管理平台会在底层屏蔽设备差异,基于基线策略来实现纳管。但随着数据中心规模的骤增,数据中心运维管理的稳定性和故障的实时精准告警等挑战变得日益严苛。

首要面对的挑战是大规模数据中心基础设施管理平台的失稳问题。大规模基础设施管理要对不同基础设施运行状态进行实时分析,每天数据量达到TB级,而且海量并发需求要在秒级反馈,极易出现故障上报不及时、页面卡顿,甚至管理平台宕机。比如以往某客户数据中心管理平台进行运维测试时,基础设施规模从1000台增长到5000台,规模提升到原来的5倍,会出现管理页面卡顿,后台日志显示大量采集任务超时的问题。即使后续对管理平台进行分布式部署,系统负载依然出现较明显的峰值抖动现象,导致页面周期性卡顿。其原因主要是作业被调度后,缺乏有效的离散管理,高峰与低谷负载不均,对系统稳定性带来极大的挑战。此外,对于海量资源的数据采集任务,会受线程数、采集周期和耗时等因素影响,容易造成任务积压,对管理平台异常情况下的任务隔离与自动降频能力提出更高要求。

此外,设备大规模告警的延迟、误报和漏报是另一大挑战。在10万+大规模设备运维场景中,一般金融等行业的客户数据中心管理平台通常以平铺直叙方式呈现设备告警,缺乏更深层的故障根因判断、全周期管理等能力。在此场景下,一旦服务器BMC在批量刷新固件时出现故障,可能会在短时间内产生大量的Trap推送,同时还夹杂着设备离线等一系列异常告警。数千条告警的推送,易造成通信堵塞,从而出现告警延迟、告警丢失等。当客户看到堆积数千条告警邮件通知时,极易导致客户误认为系统正面临重大故障风险。而且由于没有全周期管理机制,即便设备故障修复,告警信息仍会持续存在,这也大大增加了运维管理的复杂性。

智能均衡作业调度,10+超大规模设备亿级指标稳定采集

在超大规模监控场景下,作业调度不畅极易造成作业堆积、负载波峰波谷抖动,严重影响系统稳定性,进而影响采集进度。为此,浪潮信息InManage自研了ChaosJob作业调度中间件,突破了作业智能均衡调度技术,实现了采集作业的高效调度和稳定执行。

  •  在作业调度层面,InManage自研的任务调度中间件采用了灵活的作业分片与调度策略,能够基于客户的业务场景,对不同类型设备、不同协议类型的采集任务进行可高度自定义的细粒度分片。通过基于延迟队列+漏桶算法的"Job Capping"技术,实现任务分片的均衡下发,有效平抑系统负载波动,达到削峰填谷的目标。

  •  在任务执行层面,针对超大规模数据采集这种IO密集型的任务,InManage突破线程优先线程池技术,运用"作业智能聚合"机制,将计算密集型任务与IO密集型任务进行智能调度与聚合,从而加速任务执行,提升系统整体吞吐量,实现任务处理的更高效与平稳性。

  •  任务堆积防控层面,InManage的任务调度中间件具有异常任务自动识别与隔离功能,通过灵活的限流与隔离技术,确保任务"零堆积",同时保持系统整体吞吐量不受影响。例如,大规模数据中心可能存在多厂商、多型号的异构设备,有些老旧设备接口响应缓慢,采集耗时长,而这些设备往往不运行核心业务,虽然不受重视,又不能遗弃。在此场景下,InManage能够智能识别这些设备的异常表现,主动将相关采集任务进行隔离与降频处理,优先保障其他关键任务的正常执行。这一过程完全自动化,无需客户干预,成功应对了10万规模管理场景下新旧设备混杂带来的管理挑战。

图1浪潮信息 InManage平台超大规模作业调度架构

图1浪潮信息 InManage平台超大规模作业调度架构

告警管道动态分析,1000+告警动秒级实时精准响应

在面对10万+超大规模设备管理时,如何避免将系统产生的告警风暴强塞给客户,如何进行根因定位并避免误报、漏报,是数据中心统一管理的另一挑战。为此,InManage提出了CDCAlarm告警管理框架,突破了告警集成管理技术,实现了告警的及时性、准确性和全面性,同时支持告警分析、聚合及根因分析等功能。该框架能够为客户呈现按优先级排序和分类聚合的告警,直观易懂、方便用户进一步处理。

InManage使用AI技术手段对告警进行分类、分批处理,实现告警按来源、种类的归并聚合策略,在保证告警时序性的同时,提升了告警处理的整体吞吐量。同时使用基于AI的根因定位方法,快速从告警风暴中准确识别出故障根因,并呈现给客户,有效解决了客户在面对告警风暴时无从入手的局面。

同时,针对超大规模监控场景下常见的误报漏报等告警不准确、不及时问题,InManage也做了优化。

秒告警秒恢复问题:在10万+设备的管理中,某些设备可能在发出告警的同时又快速发出了恢复信号,甚至可能出现恢复信息先于告警到达。在此场景下,传统系统容易误判为告警未恢复,从而导致误报。InManage的智能告警归并技术能够有效识别和规避此类时序问题,确保告警处理的准确性。

告警噪点问题:在资源利用率实时采集场景下,短暂的峰值可能导致瞬时超阈值的告警,但整体使用率却保持平稳。为避免因这些噪点导致的误报,InManage的告警管道采用了智能识别和计数技术,能够对短时间内的同类告警进行聚合处理,从而彻底消除此类误报。

告警遗漏问题:在大规模数据中心中,由于网络负载高,SNMP协议中的Trap信息(基于不可靠的UDP传输)更容易丢失。为解决这一问题,InManage提出了融合多种协议和多源数据的AI智能预警技术,该技术可提供全天候的设备实时监控和故障分析,有效降低了告警遗漏的风险,减少客户业务隐患。

图2 浪潮信息 InManage平台告警分析与处理架构

图2 浪潮信息 InManage平台告警分析与处理架构

稳定、快速和高效的超大规模监控

在10万+大规模设备管理环境中,InManage系统表现出了稳定的性能与高效的运作能力,确保了数据采集任务得以平稳且迅速地执行,显著增强了系统的整体处理能力,有效规避了任务积压问题。面对每日高达近30TB的服务器运行状态数据洪流,InManage每秒可处理高达1000条的告警风暴,响应延迟维持5秒以内,保证了系统监控的实时性与准确性。

此外,InManage还具备对历史数据进行高效压缩与无缝转储的能力,在保障当前系统流畅运行的同时,确保了历史数据的完整性与可访问性,有效避免了数据丢失的风险。在如此庞大的规模下,InManage仍能快速查询一年内的历史告警或事件通知,响应时间缩短至2秒以内,为客户提供了强大的历史问题追溯能力,确保问题根源得以迅速定位,为系统的长期稳定运行提供了坚实保障。

InManage满足了客户对于大规模、多元化、多类型设备的统一带外管理,确保了数据的稳定采集及告警集中高效监控,同时还具备基础设施全生命周期资产管理、自动化部署管理等能力。其大规模统一带外管理技术、告警智能化分析技术水平处于国内领先水平,授权国家发明专利超过20项。未来,InManage也将更加关注客户需求的变化,不断优化产品和服务,为客户提供更加全面、高效、智能的解决方案,助力客户实现数字化转型和业务升级。

稿源:美通社

文章来源于:电子创新网    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

相关文章

    泛微网络与浪潮信息KeyarchOS完成兼容性技术认证;日前,泛微网络协同商务软件与浪潮信息KeyarchOS完成兼容性技术认证,经过共同测试,泛微协同商务软件e-cology与浪潮信息......
    下一轮数字发展变革,方正数码将与浪潮信息在多领域、多区域展开多维度的深度合作。以能源交通行业为基础,面向泛行业应用,在金融行业、医疗行业、互联网行业、应用软件等领域开展更紧密的合作。 浪潮信息......
    下一轮数字发展变革,方正数码将与浪潮信息在多领域、多区域展开多维度的深度合作。以能源交通行业为基础,面向泛行业应用,在金融行业、医疗行业、互联网行业、应用软件等领域开展更紧密的合作。 浪潮信息......
    财经报道指出, 对于浪潮信息表示Intel已恢复对其的供货,英特尔方面回应:浪潮所说属实。 消息拉动浪潮信息3日早盘高开,报38.48元,截至发稿,报37.83元,涨0.85%;浪潮软件报18.8元,涨......
    把处理器的性能发挥到极致。在蓬勃发展的智能时代,企业大模型落地将加速千行百业的创新。英特尔提供了涵盖 XPU、软件在内的广泛技术栈,通过与浪潮信息的合作,我们能够为开发者和企业用户提供灵活、无缝、高效的平台,助力......
    2024 信心满满!19家元脑生态伙伴与浪潮信息签署亿元分销协议;近日,2024年浪潮信息亿级分销合作伙伴签约仪式成功举办。浪潮信息与北京传奇天地、上海华胄、北京英信未来等全国19家元......
    2024 信心满满!19家元脑生态伙伴与浪潮信息签署亿元分销协议;近日,2024年浪潮信息亿级分销合作伙伴签约仪式成功举办。浪潮信息与北京传奇天地、上海华胄、北京英信未来等全国19家元......
    的步伐,一步一个脚印地成长壮大。从单产品扩展至全产品,由标准产品转向开源产品,传奇天地乘势而上,通过IT基础设施整体解决方案的全栈产品,不断向价值型分销转型,与浪潮信息......
    减少了计算节点故障可能导致的集群切换事件个数。• 简化管理,释放潜能:浪潮信息全新开发了SAP HANA智能化运维套件,与浪潮信息服务器管理软件InManage一起为企业构建直观易用的运维平台。整个运维平台可全面监控底层硬件基础设施、操作......
    创邻科技与浪潮信息KOS完成澎湃技术认证;近日,浙江创邻科技有限公司(简称:创邻科技)自主研发的Galaxybase图数据库系统与浪潮信息服务器操作系统KOS V5完成澎湃技术认证。创邻......

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>