一次IT事故排查记录
今日事故回顾
现象:在车牌已经识别的情况下,VIP车无法进入达实VIP场地,去往logcenter无法找到相关车牌的日志,没有出入场相关接口的错误通知推送。
初步判断:
1、控制板无网络,但是观察主板界面mqtt正常(排除)。
2、判断有网络请求,但是某种原因没有被日志分析系统抓获。
最后通过adb logcat命令将日志打印出来,发现心跳和入场请求都正常发出,但见有异常回复包:{code:-1003,content:request expire}
再综合router1 和 router2 的日志发现,router1主要负责新泊乐的桥接转发且接口正常,router2主要负责控制板的转发,但router2从发生事故后就没有打印日志。
结论:请求被open-gateway网关拦截。
从open-gateway拦截的情况下,有一个请求过期的错误,意指:该请求传输的时间戳和服务器的当前的时间差值过大,大于60s,然后该请求被拒绝。
修复措施:重启控制板后时间正常。
修正措施:将控制板时间设置成服务器时期,避免时钟过慢或者没有请求。
监控措施:
将所有非status = 200 或者 code != 0 请求的日志发送给aiops平台,aiops平台针对code!=0的错误进行监控。
控制板面板将展示异常的网络请求信息,方便排查。
本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可。