如何通过更好的实践和工具改进电话技术支持

2020-08-04 12:30:59

在可靠性时代,仅仅几分钟的停机或延迟就可能造成数十万美元的损失,24x7全天候可用性和随叫随到的服务范围已成为绝大多数组织的要求。但是,建立一个随叫随到的系统来推动有效的事故响应,同时将施加给工程师的压力降到最低,并不是一项微不足道的任务。建立公平的随叫随到轮换,设置正确的护栏和自动化,以及定期的事件实践是关键。在本博客中,我们将与您分享关键工具和实践,以确保您的随叫随到工程师为成功做好准备。

在设置您的电话技术支持系统时,定义清晰一致的策略和实践非常重要。在承担随叫随到的职责时,工程师不应该需要在寻呼机响起时重新发明轮子;理想情况下,围绕严重性、事件手册和更多内容的计划应该在和平时期进行。团队应通力合作,制定规则,规定随叫随到上报的时间和方式。在实施随叫随到系统之前,请确保您已经做好了以下工作。

首先,您需要建立随叫随到的日程表。通过查看每个工程师拥有所有权和领域专业知识的位置,找出哪些工程师需要为可能发生事故的不同系统区域提供服务。创建团队以最大限度地提高多样性和覆盖面,以便每次都能有效应对许多不同类型的事件。与这些团队一起填写日历,确保轮换期间的每个班次都包括在内。

在所有这些过程中,请咨询您的工程师以确保您的日程安排是合理和公平的。随叫随到的班次应该持续多久?团队应该多久待命一次?如果工程师必须换班,程序应该是什么?为了保持高昂的士气和团队的有效反应,确保每个工程师在这些选择中都有公平的发言权。

做好经常更改轮换计划的准备,即使在实施之后也是如此。随叫随到工作的实际情况往往与预期大相径庭,因此请查看随叫随到的数据,以发现某些人是否因非工作时间中断或严重事件而负担过重,并相应地进行负载平衡。在人们关心的问题发展过程中,要灵活地听取他们的意见。外部业务变化和开发周期中的阶段也会极大地改变随叫随到班次的性质,因此要准备好反映那些调整了班次长度和轮换频率的情况。

由于这些不断变化,因此使轮换计划保持最新非常重要。确保将其保存在便于进行更改、自动化且易于与不同系统集成并且任何人都可以访问的位置。许多随叫随到的平台还提供日程安排工具,使这一过程更轻松、更稳健。

您需要定义的下一组策略是确定实际联系您的待命团队的时间以及他们的响应方式。为了消除警觉疲劳,您需要明智地确定何时通知您的团队,但也要确保不会忽视严重事件。

您应该有一个系统来对事件进行分类,根据严重程度和受影响的区域将其分类到既定的分类中。这些分类将确定向谁发出警报以及需要做出什么响应。此响应还应包括在您违反SLO或SLA之前需要解决严重事件的时间表。

您可以通过查看事件的业务影响来确定严重性-阻止客户使用服务或违反SLA的问题需要比通常稍慢的小组件加载速度更快、响应更大的问题。

您还需要为每类事件准备明确的响应。工程师应该配备像Runbook这样的工具,以便在接到警报后立即开始处理事件。这些Runbook还可以包括用于触发进一步升级的检查。确保您的随叫随到的工程师熟悉这些Runbook,并且有信心在时机成熟时执行它们。安排定期审阅会议,以根据事件回顾更新Runbook。

在凌晨被从床上叫起来,不得不用比平时更少的队友和资源处理事件,以及面临恢复服务的极端压力(因为商业声誉岌岌可危)之间,随叫随到可能是一种极其紧张的经历。被随叫随到的职责压得喘不过气来,认为随叫随到的职责分配不公平,或者普遍感到被低估,都会迅速打击工程师的士气,加速倦怠。

让工程师参与制定时间表和其他政策。倾听他们的经历,庆祝他们的成功,解决他们的挣扎。确保你无懈可击地听到这些担忧;与其将挫折或沟通失误归咎于个人,不如看看它们背后的系统。防范“英雄”文化,并通过消除单点故障、接受更小和更频繁的更改、分布式轮换和持续学习来接受可持续的随叫随到。

将事件从故障和挫折重新定义为对未来可靠性的投资-每一起事件,如果处理得当,都能更好地应对未来的每一起事件。同样,每个随叫随到的班次都是让未来随叫随到的班次变得更好的投资。当在负载平衡、准备好有效响应或适当升级方面遇到挑战时,请将它们作为完善和发展的机会来接受。

要了解更多关于如何实施富有同情心和有效的随叫随到实践的提示,请点击此处查看我们排名前5位的随叫随到实践。

实施随叫随到实践是一个复杂的过程,但幸运的是,有很好的付费和免费随叫随到的工具和平台可以提供帮助。最流行的工具包括PagerDuty、OpsGenie、VictorOps、Cabot和LinkedIn On-Call(开源)。

随叫随到是可靠系统的重要组成部分。要使您的随叫随到和可靠性实践更上一层楼,您需要将上下文编码为护栏和自动化,最大限度地减少辛苦,并培养一种倾向于好奇心而不是责备的文化。通过集成来自SLO、事件检查表、事后检查、后续行动项目等的宝贵数据,无可指责地可以帮助您从随叫随到和更广泛的可靠性工作中获得更多好处。要了解如何让您的SRE解决方案变得无懈可击,请加入我们的演示!