北京网路畅想科技发展有限公司

数据中心服务器智能故障诊断技术


 2021-12-02 00:00

 

随着云技术的普及,尤其是“新基建”,“数字化转型”等需求驱动着数字经济的高速发展,服务器在CDC数据中心的部署规模也呈指数级增长。随之而来的运维管理复杂度和难度也越来越大,而传统的海量服务器数据中心的故障运营也面临着更大的挑战和更高昂的成本,从最初的脚本运维、工具运维到平台运维演进至今,人力已接近极限,越来越无法满足快速修复故障和恢复业务运行的要求。

 

大规模数据中心运维存在如下的痛点问题:

 

1. 机器故障后,重要的日志信息不全,无法自动准确进行故障部件定位;

 

2. 故障诊断效能较低,服务器出现问题后主要基于人工分析和经验判断结果,自动化与智能化程度不高。

 

3. 成本高时效性差,人工经验分析依赖大量运维人力投入并导致较长的运维时间(MTTR),影响业务的快速恢复。

 

4. 由于诊断结果的明确化率低,引起二次故障维修比例较高,导致额外数据迁移成本和业务影响。

 

针对目前服务器运维的痛点问题,如何快速提升数据中心服务器的自动化明确故障诊断准确率,也成为一个复杂的系统级工程,如何能够构建一套贴合业务场景的服务器智能化故障诊断系统,不断降低运维成本,持续提升运维效能,成为业界一个亟待解决的新课题。

 

腾讯、浪潮双方基于多年来海量服务器的运营经验积累与创新实践,共同探索服务器运营发展趋势,制定了数据中心服务器智能化故障诊断方案框架,并希望通过《数据中心服务器智能故障诊断系统白皮书》为行业带来一些革新的思路和视角。

 

该系统依托腾讯超过100万台服务器的维护数据,深度定制了服务器事件日志,通过AI技术对服务器运营数据进行实时的分析,从而实现了对CPU,内存、硬盘,PCIe等设备的自动化预警,将服务器故障诊断自动明确化率提升至95%以上。

 

TIFDS故障诊断系统定义

 

TIFDS (Tencent &Inspur Fault Diagnosis System) 故障诊断系统是服务器健康监管技术及故障预警诊断技术的总称,旨在实现运维工作任务由人工离线分析向自动智能在线识别的方向发展,建立一套以带外BMC为中心的自动化故障诊断系统,提升服务器故障预警能力、故障诊断明确率、以及停机维护效率,减少非计划停机时间,提升服务器全生命周期的健壮的RAS特性(可靠性,可用性及可维护性)。

 

TIFDS可以覆盖由于IERRInternal Error)和非IERR造成的系统宕机故障,并精准地定位出故障部件,如CPU,内存,主板,PCIe外插卡,存储等设备。服务器运行过程中一旦发生异常,TIFDS系统会立刻响应并准确诊断出故障的部件,将故障问题原因、故障部件具体位置、部件型号信息、维修建议等信息及时上报至运维管理系统。运维管理系统可自动生成维修工单,运维人员根据维修建议,需要更换部件信息,快捷更换故障部件或者依据TIFDS指导排除故障,迅速使机器恢复健康状态。传统的以小时计算维修时间级别压缩至分钟级别。极大提升运维效率,实现云业务快速恢复。

 

非宕机类故障诊断

 

通过BMC实时监控服务器系统上遍布各处的电压、电流、温度传感器信息,实时监控电源、风扇、以及各部件的工作状态和工作负荷情况;根据可在线更新的告警阈值、预警阈值和故障判定规则,可实现对服务器中存在风险的位置进行故障预警、故障告警或故障判定,并时刻上报智能运维系统。

 

故障预警与隔离

 

对服务器内所有部件进行全生命周期的寿命和运行状态进行跟踪,通过机器学习的算法对高风险的部件提前进行预警,降低服务器在高负荷运行状态下的突然失效。另外对已发生故障的部件,TIFDS可以按部件类别做出相应的隔离措施处理,避免单一非必要部件故障影响整机系统的运行。

 

TIFDS是腾讯云运维监控系统中的重要组成部分,是服务器带外数据的主要来源,在内存,CPUPCIe等部件的故障监控,失效预测,大规模告警上有极大贡献。通过定制化的日志自动适配腾讯云备件系统,给腾讯云健康管理系统增加参考维度,并基于带内带外日志开发出线上诊断系统,深度的定制化模式和简单易用的维护工具使整个运维系统能更加智能,高效。

©2000-2023 北京网路畅想科技发展有限公司 版权所有

京公安网备:11011402011290 京ICP备12046739号-10