用户一级网使用华为视频会议设备,后期进行了200余个会场的现网扩容,新增加了主备MCU,新平台在稳定使用了1个月近期突然出现故障。
1、用户在二三级网扩容项目过程中新购买一台8650MCU,从系统稳定性角度考虑将之前使用的另一台8650MCU作为备用MCU使用,在新建视讯系统建成并使用一段时间后出现主用MCU和备用MCU自动倒换、同时上线、离线问题。
处理过程
将MAC地址冲突的设备重新修改MAC地址,SMC平台运行正常,问题得到彻底解决。
根因
1、MCU设备本身故障:主用MCU为新购买设备,并且平稳运行了一个月时间,查看MCU没有任何异常告警,并且备用MCU是用户原来在网使用2年的设备,不可能两个MCU同时出现问题,基本排除MCU故障。
2、RM平台原因:用户使用远程登录方式进行日常操作,出现故障时平台操作同步性非常差(基本上是鼠标点击后需要等3—5秒RM才有会控反应),此时ping命令发现打平台服务器延时很大,笔者使用了自己便携机临时搭建了一套平台进行测试,发现故障马上消失,重新连接用户服务器,故障马上复现,因第二天有全国性重要会议要使用此系统,用户认为服务器平台存在问题,准备连夜重新安装服务器平台,笔者经过观察发现故障出现存在一定规律,查看系统日志发现早晨8点之前、中午11点30分至14点、晚上17点以后系统恢复正常,如果平台服务器真的存在问题不应该在用户休息时间段就恢复正常。
3、网络或服务器硬件原因:
觉得事情蹊跷,建议用户暂时不要重新搭建平台先查找一下网络的原因,用户经过一个小时排查终于发现了一处问题,用户网络中存在一台设备使用与SMC服务器一样的MAC地址,根据IP地址找到这台设备,原来用户进行某软件测试时误修改过MAC地址,用户早晚下班、中午午休期间设备都是断电的,这此时间段就不存在MAC地址冲突,SMC服务器就可以运营正常,经过反复测试确认MCU离线与MAC地址冲突有关。
建议与总结
在故障排查阶段平台服务器确实误导了故障排查的思路,耗费了很多精力,但通过对故障现象的仔细分析终找到问题所在,大家在日常处理故障时要善于观察。