我是怎么定位线上问题的?
面试官:「你是怎么定位线上问题的?」
这个面试题我在两年社招的时候遇到过,前几天面试也遇到了。我觉得我每一次都答得中规中矩,今天来梳理复盘下,下次又被问到的时候希望可以答得更好。下一次我应该会按照这个思路去答:
1、如果线上出现了问题,我们更多的是希望由监控告警发现我们出了线上问题,而不是等到业务侧反馈。所以,我们需要对核心接口做好监控告警的功能。
2、如果是业务代码层面的监控报警,那我们应该是可以很快地定位出是哪儿的问题,毕竟告警逻辑都是我们写的嘛。如果是服务器资源/所依赖的中间件告警,那我们可能就要花点时间去排查啦。
3、不管怎么样,无论是系统告警还是是业务侧反馈系统或者接口出了问题。我们要想想在近期有没有发布过系统,如果近期发布过系统,判断能不能立马回滚到上一个版本,恢复系统平稳正常运行(在线上环境下,可用性是相当重要的)。回滚的时候要考虑接口有无依赖性,是否需要跟业务侧同步此次的回滚以及做相关的配合。
4、因为线上大多数的问题都来源于系统的变更,可能我们只是变更了很少的代码,但只要有一丝的逻辑没留意到,就真的很可能会导致出现问题,回滚很可能是最快能恢复线上正常运行的办法。
5、如果近期都没发布过系统,是系统告的警,那追踪下告警和报错日志,应该是可以很快地就能定位出问题。
6、如果不是系统告的警,是业务侧反馈出了问题,那这时候需要业务侧明确是哪个具体的功能/接口出了问题,有没有保留请求入参,有没有返回错误的信息,有何现象
7、知道了问题的现象之后,就需要根据经验排查可能是哪块出了问题了。我的经验一般是:先查存储侧有没有瓶颈(MySQL 的CPU有没有飙高,主从同步延迟是否很大,有没有慢SQL。Redis是不是内存满了,走了淘汰策略。搜索引擎有没有慢Query),把该服务所依赖的中间件的指标看一遍,这个过程中也要去看看服务接口的QPS/RT相关的监控。如果有某项指标不对劲,那顺着写入逻辑也应该很快能看出来
8、一般到这里,大多数的问题都能查出来。可能是逻辑本身的问题,可能是请求入参导致慢查询,可能是中间件的网络抖动,可能是突发或者异常请求的问题。
9、如果都不是,回归到应用和机器本身的监控:应用GC的表现、机器本身的网络/磁盘/内存/CPU 各种的指标有没有发现异常的情况。这里可能是需要运维侧一起配合看看有没有做过改动。
10、要是还定位不出来,看能不能复现,能复现都好说,肯定是能解决的。
11、要是不能复现,只能在怀疑的地方打上详细的日志再好好观察(问题定位不出来,很多时候就是日志不够详细,而日志在正常情况下也不应该打太多)
这个我估摸想要考察的是看看你平时是怎么去定位问题的,定位问题的思路是什么,自己有没有方法论之类的。话虽如此,这也只是我这几年的定位问题的模式,也未必对,也不知道有没有缺少了哪一个重要的环节。面小公司总体下来会问些方法论的多,不会很专研某项技术的问题。
我瞅瞅还有啥可以拉出来复盘下,继续写呗。
相关文章
- 服务器CPU爆满问题定位
- 不改一行代码定位线上性能问题
- 问题定位记录
- 关于自动驾驶高精定位的几大问题
- vpp buffer 泄露问题定位思路
- app自动化测试之Appium问题分析及定位
- 记录一次java应用突然挂掉的问题定位
- mysql死锁问题定位解决
- CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
- 如何使用 Arthas 定位 Spring Boot 接口超时
- 一个根据URI定位到spring mvc映射代码工具类详解编程语言
- Oracle安装之路:精准定位Path问题(oracle安装path)
- 深入剖析Linux抓包分析技巧:实现网络问题精准定位(linux抓包分析)
- Oracle SQL跟踪神器,轻松定位SQL问题(oracle跟踪sql工具)
- 掌握Linux定位技巧,让搜索更简单(linuxlocate)
- 问题 解决Oracle无法定位的根源问题(oracle出现无法定位)
- 查看Redis存放目录一步步教你如何快速定位(查看redis存放目录)
- 怎么办处理MySQL下载问题(mysql下载时无法定位)
- Oracle产品解决方案的有效定位(oracle产品定位)
- 以Oracle IN查询精准定位你要的信息(oracle使用in查询)
- 利用Oracle CMD日志进行问题定位(oracle cmd日志)
- Lighthouse 激光定位技术开源了,但不是 Valve 做的
- 使用GPS经纬度定位附近地点(某一点范围内查询)
- android通过gps获取定位的位置数据和gps经纬度
- js中的如何定位固定层的位置