收到告警后如何快速定位问题
2023-03-15 23:26:56 时间
收到告警消息后,如何快速定位问题
- 关联版本发布:如果是新版本发布后新产生的告警,就首先考虑告警与发布的内容之间的关系,如果不能快速解决,就需要回滚版本
- 收集多组告警:收集一起出现的所有错误错误消息或错误日志,分析什么原因可能导致一组错误。 比如:
Unable to send PING command over channel: [id: 0xaabc5c3c, L:/9.165.34.233:57438 - R:10.62.15.30/10.62.15.30:6380]
Exception: Command execution timeout for command: (PING), params: [], Redis client: [addr=redis://10.62.15.30:6380]
Redis server response timeout (3000 ms) occured after 3 retry attempts. Increase nettyThreads and/or timeout settings. Try to define pingConnectionInterval setting. Command: (ZRANGEBYSCORE)
上面两个错误是突然出现的,如果只看第一个错误,就可能以为是redisson的bug(https://github.com/redisson/redisson/issues/3273)。实际上是因为命令ZRANGEBYSCORE在大key上执行,耗时太长,引发其他请求也超时
- 尽早定位:收到告警消息,需要尽早定位问题,防止错误扩散
有一次发布后,收到一个"订单不存在"的告警消息,因为看起来问题不大,也没有影响用户下单,就没有第一时间去定位,等第二次出现"结算单不存在"时,才觉得有新的问题,原来是自定义多数据源时,漏了自定义事务管理器,导致数据不一致
- 快速跳转:告警消息中需要携带关键信息,特别是调用链的traceId,并且可以点击跳转
- 减少无用告警:防止错误消息被无效消息淹没
相关文章
- 金融服务领域的大数据:即时分析
- 影响大数据、机器学习和人工智能未来发展的8个因素
- 从0开始构建一个属于你自己的PHP框架
- 如何将Hadoop集成到工作流程中?这6个优秀实践必看
- SEO公司使用大数据优化其模型的5种方法
- 关于Web Workers你需要了解的七件事
- 深入理解HTTPS原理、过程与实践
- 增强分析:数据和分析的未来
- PHP协程实现过程详解
- AI专家:大数据知识图谱——实战经验总结
- 关于PHP的错误机制总结
- 利用数据分析量化协同过滤算法的两大常见难题
- 怎么做大数据工作流调度系统?大厂架构师一语点破!
- 2019大数据处理必备的十大工具,从Linux到架构师必修
- OpenCV中的KMeans算法介绍与应用
- 教大家如果搭建一套phpstorm+wamp+xdebug调试PHP的环境
- CentOS下三种PHP拓展安装方法
- Go语言HTTP Server源码分析
- Go语言HTTP Server源码分析
- 2017年4月编程语言排行榜:Hack首次进入前五十