yl23411永利

    服务器 2025-11-04

    KunTai R622服务器批量硬盘告警

    一、现网描述

    1.1 环境描述

    设备型号:KunTai R622

    硬件配置:MegaRAID 9560-8i 4GB、SAMSUNG MZ7LH480HAHQ-00005、TOSHIBA MG08ADA800E、SP333


    二、故障描述

    2.1故障现象

    1台R622服务器出现所有硬盘状态异常告警,更换硬盘背板、RAID卡与SAS线缆后无法导入配置

    image.png

    image.png


    三、问题分析

    3.1排查思路

    1. 查看current_event日志文件,当前设备硬盘全部告警“state is abnormal”,此类批量问题一般为链路问题,非单块硬盘故障。

    image.png

    2. 分析sel事件记录日志,该设备在5月8日突然出现批量硬盘状态异常,未记录到其他异常操作,排除人为操作因素。

    image.png

    3. 分析RAID_Controller_Info日志,当前raid卡状态正常

    image.png

    4. 分析Raid组状态,发现多个单盘raid0阵列状态均已变为offine,说明raid组已失效

    image.png

    5. 分析磁盘日志SATA_log,各硬盘均无报错,Smart参数正常,说明硬盘健康状态良好

    image.png

    6.  深入分析LSI_RAID_Controller_Log日志,故障发生前raid控制器记录到多块磁盘reset,随后状态变为offline不可用,疑似链路故障导致硬盘批量reset。

    image.png

    7. 分析硬盘链路日志,发现部分Invalid和PhyResetProblem计数,说明SAS链路可能存在问题。

    image.png

    8.  结合上述分析内容,判断设备产生告警原因为链路异常,更换链路前运行过程中有多块硬盘raid掉盘,掉盘后未做拉起,直接更换链路,更换链路后在Foreign View界面检査外部配置的详细信息发现,Foreign 配置下的硬盘实际为offline,这种状态下无法导入,当raid配置中存在offine状态盘的时候,只能顺利获得在PD Mgmt中强制将盘online恢复,但是由于当前更换了新raid卡,新raid卡下,硬盘的状态以及变成Foreign,无法再设置online,导致无法导入外部配置,只能清除先前配置重组raid。


    2.3分析结论

    综上,该问题产生原因为硬盘链路故障导致批量硬盘告警,在更换硬盘背板、RAID卡与SAS线缆前,在老raid卡下未将offline的盘恢复,导致新raid卡下无法将硬盘的外部配置关系导入,现场工程师在与客户沟通确认这台是没有使用的设备后,执行操作清除先前遗留的外部配置,并按配置要求重组raid,在重组raid时选择初始化磁盘,导致此前数据丢失。