事后分析的后续工作有哪些?

对改正办法必需进行追踪,直到履行完成。要记住,在改正办法没有获得完整履行之前,变乱重发的风险会一向存在。必需确保履行人和完成日期都落实到位,并且履行人要一向负责到底,哪怕本来的事宜已逐渐成为曩昔。要在毛病追踪体系或其他相似对象中将其标志为高优先级项目,如许有助于确保准确的信息都记载下来了,从而避免丧失。

纠正性运动经常会和开辟运动竞争资本的优先权属。对于网站的稳固性和新功效,在主要水平上赐与一致看待,在这点上取得治理层的支撑,异常主要。声称网站稳固性最主要的公司,对于确保纠正性运动的完成,年夜有赞助。改正办法要依据可以或许防止的相似变乱的数目来肯定优先次序,假如一项办法只能改正当前产生的变乱,而另一项办法却能修复一批可能的相似变乱,则确定后者会获得更高的优先级,从而工程部分也会将精神集中在这项办法上。

别的,确保将过后剖析的数据录入到最终对象中,为事宜付与一个基本原因类别,以便对其进行数据发掘,从而治理层也可以或许对历久趋向进行辨认。我们应用如许的变乱类别,如硬件掉效、与更新有关、容量/流量变乱、已存在的软件毛病,对变乱进行归类。应用汗青数据,对申请哪些资本、应用什么样的对象、启动什么样的主动化项目进行加倍明的策。要将资本用在多发的变乱类别上,从而在全部公司规模内有组织地下降这些变乱的产生率。有宕机的汗青数据,对于调剂有难度、耗资本的项目是特殊有效的。

经由了多年的过后剖析阅历,我发明了一些内容,你可能会斟酌将其用于纠正性运动,我称其为网站可操作性。

清除单点故障

硬件可能,也将会,掉效。应用冗余进行防护。不要让硬件掉效成为产生影响客户的事宜的原因。

容量计划

懂得网站未来的容量需求。将容量计划树立在重要的束缚前提(如CPU、内存、I/O及存储)的整体应用率的基本上,而不要树立在次要束缚前提(如用户数目)的基本上。对于这些你所须要的器械,要在须要之前,就做好准备。

监控

监控对于检测和诊断变乱长短常主要的。本书的其他章节对于监控已经供给了年夜量的建议。

宣布治理

从汗青上看,更新是激发变乱的重要原因。要确保你的宣布进程具有恰当的质量掌握,要斟酌如许的实现概念,如主动测试、预演情况、受限的临盆安排、暗启动(安排代码,但不激活其功效,直到证实代码是稳固的)以及立刻回滚的才能。

运维架构复审

在宣布之前,对架构进行复审,对新的宣布或产物在临盆情况中将会若何履行进行审查,要斟酌可保护性、掉效场景、对事宜的响应以及架构的靠得住性和可伸缩性。

设置装备摆设治理

跟着体系的增加,临盆情况中的设置装备摆设也会变得越来越庞杂。无法懂得更新对临盆设置装备摆设的意义往往会导致工资变乱的产生。有一个易懂、好用的设置装备摆设治理体系,将有助于工程师避免这些无意中产生的问题。请参阅本书第5章,查看更多的建议。

随时待命和晋升进程

辨认问题,尽快提交给可以或许解决问题的人。

不稳固的组件

标识并修复那些产生过瓦解以及工资变乱的软件组件,将其标识为高优先级,即使它们易响于手工修复。这些手工修复累积起来,会对客户体验、伸缩才能以及效能都造成负面影。

要采用积极自动的行为,确保网站扶植内容的可操作性,能避免许多苦楚的过后剖析。

相關文章: