木根生活

一次IT事故排查记录

今日事故回顾
现象:在车牌已经识别的情况下,VIP车无法进入达实VIP场地,去往logcenter无法找到相关车牌的日志,没有出入场相关接口的错误通知推送。

初步判断:
1、控制板无网络,但是观察主板界面mqtt正常(排除)。
2、判断有网络请求,但是某种原因没有被日志分析系统抓获。

最后通过adb logcat命令将日志打印出来,发现心跳和入场请求都正常发出,但见有异常回复包:{code:-1003,content:request expire}

再综合router1 和 router2 的日志发现,router1主要负责新泊乐的桥接转发且接口正常,router2主要负责控制板的转发,但router2从发生事故后就没有打印日志。

结论:请求被open-gateway网关拦截。

从open-gateway拦截的情况下,有一个请求过期的错误,意指:该请求传输的时间戳和服务器的当前的时间差值过大,大于60s,然后该请求被拒绝。

修复措施:重启控制板后时间正常。
修正措施:将控制板时间设置成服务器时期,避免时钟过慢或者没有请求。
监控措施:
将所有非status = 200 或者 code != 0 请求的日志发送给aiops平台,aiops平台针对code!=0的错误进行监控。
控制板面板将展示异常的网络请求信息,方便排查。

当前页面是本站的「Google AMP」版。查看和发表评论请点击:完整版 »