zl程序教程

您现在的位置是:首页 >  Java

当前栏目

YYYYMMDD-用户产品研发部CaseStudy模板

2023-02-18 16:31:15 时间
  • 故障描述
  • 处理过程
  • 故障原因
  • 解决方案
  • 原因分析(5 WHYS)
  • 存在问题
  • 后续TODO

模板说明

  • 线上故障CaseStudy请根据此模板书写,确保整个事业群遵照同一标准
  • 标题格式“YYYYMMDD-故障标题-CaseStudy”,标题请确保简洁、准确、具体
  • CaseStudy务必做到对事不对人、追根溯源,最终目标是举一反三、避免类似问题反复出现
  • 线上故障务必周知QA新增JIRA记录,发CaseStudy到K12用户钉钉群,P1/P2级别故障还应召集CaseStudy会议

故障描述

填写说明

  • 故障起止时间应精确到秒,避免模糊化。以故障开始和服务恢复时间为准,涉及到数据修复的,额外增加一个时间段
  • 故障影响范围应涵盖受影响用户群、业务种类、业务系统模块
  • 损失评估是故障定级的关键依据,需给出确切或估算影响用户数、时间、交易/金额损失等数据
  • 故障定级请参照 许毅 的故障定级方案(待补充)

故障现象:

起止时间:

影响范围:

造成损失:

故障定级:由QA来定级,定级标准参考 公司故障定级

责任人/组:

处理过程

填写说明

  • 线上故障处理的最高原则是尽快恢复服务,降低损失
  • 定位问题模块、故障原因,采取行动恢复线上服务正常运转为此环节首要任务
  • 请在本节详细记录何时、何人、何种动作、结果如何以便事后复盘
  • HH:MM:SS (何人何种操作导致)故障开始 
  • HH:MM:SS 何人报告线上出现何种现象故障 
  • HH:MM:SS 何人开始跟进调查、有何发现
  •  ......
  • HH:MM:SS 何人采取何种动作、有何结果
  • HH:MM:SS 线上服务恢复正常,故障解决(Resolve故障Task)

故障原因

如果是Code Bug请用Code说话:解释清楚为什么某段Code造成这个问题

解决方案

如果是Code Bug请用Code说话:清楚说明Code Change以及为什么可以解决这个问题

原因分析(5 WHYS)

填写说明

  • 线上故障原因分析至关重要,如果不能追根溯源找到问题的关键,改进、避免就无从谈起
  • 美团线上故障统一采用5 Whys分析法,相关介绍参见 5whys分析法在美团工程师中的实践
  1. 为什么出现这个故障? 
  2. 为什么...

存在问题

 综上所述,这个线上故障总共暴露出如下一些问题:

  1. Code Review机制流于形式 
  2. 测试覆盖不够全面
  3. ......

后续TODO

填写说明

  • 从事前预防、及早发现、快速定位、举一反三等角度,认真思考改进措施,明确需要采取的行动、负责人、时间计划
  • 改进事项应避免空洞无物,符合SMART原则,明确、具体、可执行、可衡量、有确切完成时间
  • 改进事项完成情况包括: TODO 、DOINGDONECANCEL
  • 改进事项完成情况请及时更新周会统一回顾之前CaseStudy的改进情况

序号

action

预计完成时间

完成情况

负责人

备注

1

code review

YY-MM-DD

TODO

xxxx

2

3

4