浅谈可靠性工程的重要性

2020-08-07 03:46:07

如果你最近在科技界呆过,你肯定听说过三封信:SRE。现场可靠性工程是当今技术领域的标志性运动。谷歌(Google)和亚马逊(Amazon)等巨头将其提供可靠服务的能力推向市场,而初创公司现在正投资于可靠性,将其作为早期的优先事项。

但是,是什么让可靠性工程如此重要呢?在本博客中,我们将介绍投资可靠性的三大好处,并解释如何开始您的可靠性卓越之旅。

可靠的服务比性能不稳定的服务对客户更有价值。这似乎是如此明显,以至于你可能认为这是不言而喻的,但这一提醒是至关重要的。想象一下您的服务的典型用户。当他们使用您的独特功能时,他们会感到高兴和投入,但不要忽略潜在的假设:您的服务是有效的。无论您的功能如何与竞争对手相媲美,用户总是会选择功能丰富的选项,而不是功能丰富的选项。没有比可靠性更重要的特性了。

无论您的功能如何与竞争对手相媲美,用户总是会选择功能丰富的选项,而不是功能丰富的选项。没有比可靠性更重要的特性了。

不可靠软件的后果也比在可靠性上主动投资的成本更高。考虑一下你对技术的依赖程度。在给定的一天里,你依靠闹钟叫醒你,依靠一个应用程序来报告天气,依靠一个日历来提醒你的日程安排。你可以从优步叫车,或者使用谷歌地图来避开高速公路上的交通。也许你会从格鲁布中心叫午餐送来。当你回到家时,你的亚马逊包裹就在你期望的地方。我们信任这些服务..。当他们倒下时,我们感到愤怒。

这些都是在可靠性时代评判您的服务的标准。当最流行的软件号称正常运行时间百分比为5个9时,用户开始期望在不考虑停机的情况下保持一定程度的一致性。投资于可靠性所产生的价值不仅在于延长服务的正常运行时间,还在于让您的客户对您的品牌感到满意、增加用户并降低流失的可能性。

您可能认为可靠性工程是开发的间接成本,是必须考虑的额外一层工作。的确,必须将时间和精力投入到可靠性上,但您会发现采用SRE最佳实践实际上可以增强和加速开发。

SLO和错误预算作为一个系统工作,以确保停机时间、延迟和其他不可靠指标保持在可接受的范围内。当超过这些可接受的指标时,SLO政策可以将开发工作的重点重新放在稳定和修复上。另一方面,当SLO在可接受的范围内并且误差预算可用时,开发可以安全地加速。可以对照SLO衡量可能影响可靠性的建议更改,从而使您能够自信地构建新功能。

SLOS还可以通过突出业务影响最大的领域来支持有效的开发。在确定您的SLI(您的SLO衡量的指标)时,您将发现您的服务的哪些领域对用户最重要。当您确切了解用户的期望时,您就了解了您的服务是如何定位的,以及如何朝着客户满意的方向发展。

尽管采取了积极的措施,但事件是不可避免的。然而,有了SRE原则,原本被认为是挫折的东西可能会成为对发展的另一项投资。事件回顾是为响应事件而协作构建的文档,并由相关人员在事后进行审查。乍一看,在时间已经有限的情况下,这似乎是额外的工作,但它节省的时间远远超过了它的补偿。通过分析事件中的模式,开发人员了解在可靠性方面应该在哪里进行主动努力。它还鼓励开发人员寻找避免常见类错误的方法,并鼓励编写更高性能的代码。

尽管采取了积极的措施,但事件是不可避免的。然而,有了SRE原则,原本被认为是挫折的东西可能会成为对发展的另一项投资。

SRE原则还通过其对自动化和一致性的关注来加速开发。通过投资将DevOps流程编码到Runbook中(其中清楚地概述了步骤和检查),可以更快地甚至自动执行常见任务。SRE鼓励在如何对事件进行分类以及每个严重程度级别需要什么响应方面保持一致。这种一致性鼓励通过简化的协作快速、自信地响应事件。

SRE不仅仅是一套实践和政策-它是一种关于如何在一种不受指责的文化中开发软件的心态。通过接受这种新的心态,你的团队的士气和同志情谊将会提高,让每个人都能在一个心理安全的环境中充分发挥他们的潜力。

SRE告诉我们失败是不可避免的。不管你采取多少预防措施,事故总会发生。在为您提供有效应对这些事件的工具的同时,SRE也要求我们庆祝这些失败。当新的东西出错时,这意味着有机会了解您的系统。这种态度创造了一个持续学习的环境。

在分析这些不可避免的事件时,保持一种无可指责的态度是很重要的。与其浪费时间指责和挑剔,不如一起找出事件背后的系统性问题。通过避免责备和羞耻的文化,工程师不再害怕主动提出问题。团队成员会更加信任彼此,前提是他们对队友的选择抱有诚意。这种无懈可击的合作精神将把最具挑战性的事件转化为共同成长的机会。

这些教训的核心是以人为本的理念:无论是在考虑可靠性对用户的影响时,还是在开发人员保持工作正常的时候。成功取决于理解用户和开发人员的感受,并在决策时真正体谅他们。SRE为您提供工具,将这些感同身受的洞察力与可操作的数据联系起来。

SRE不仅仅是一套实践和政策-它是一种关于如何在一种不受指责的文化中开发软件的心态。通过接受这种新的心态,你的团队的士气和同志情谊将会提高,让每个人都能在一个心理安全的环境中充分发挥他们的潜力。

在可靠性的时代,没有比现在更好的时机开始您的SRE之旅了!

要了解SRE的实际细节,请查看谷歌里程碑式的教科书或附带的Coursera课程。如果你的时间更紧迫,“无可指责”杂志提供了一个重要的指南。您可以在我们的顶级SRE资源列表中找到更多关于SRE各个方面的优秀资源。

如果您对支持您的SRE解决方案的工具感兴趣,请查看我们的买家指南以了解可靠性。您还可以看到无懈可击如何帮助您的SRE实践,请加入我们的演示!