灾难恢复计划是小丑们写的一个笑话

2020-08-13 10:00:32

如果你在工程副总裁或主任办公室的某个地方看一看,你会发现一个活页夹已经有一段时间没有人碰过了,上面写着“DR/BCM计划”。

灾难恢复/业务连续性管理规划是需要考虑的重要事项。但几乎可以肯定的是,你工作的小丑们把事情搞得一团糟,进入了荒诞不经的境界。

这些计划一开始都是出于最好的意图。“如果我们的网站倒塌了怎么办?”这绝对是负责任的企业和Facebook需要问的问题。事实上,当我在DuckBill Group的保险单上买东西时,其中一个问题是“你们有DR计划吗?”接下来的一句话是“请附上一份”,所以你不能就这样溜之大吉。

此外,如果您的数据中心或云服务提供商伸出援手,“嘿,我们的设施现在是一个烟洞,因为事实证明,用实际上是巨型压缩炸弹的东西给它提供动力,有一些我们完全没有预料到的故障模式。”您至少会想要对下一步做什么有一个大致的想法。

不,不是“更新你的简历,找一份新工作”,你这个懦夫。我们稍后会讲到那部分。

这些计划的问题在于,它们暴露了对失败是如何运作的严重缺乏理解。随着环境的发展,其应用程序遍及全球,与其说站点是正常运行的,不如说是站点关闭的问题,而更多的是“它有多坏”的问题。

知道何时启动灾难恢复计划永远不会像桌面练习那样清晰。如果你的服务提供者未能与你沟通正在发生的事情,你会激活该计划还是尝试等待它结束?

灾难恢复计划还受到这样一种自负的影响,即他们能够预测任何给定停机的规模和范围。“当然,如果数据库服务器出现故障,它不会以破坏其副本的方式这样做”是这一点的一种表达方式,也是一种常见的表达方式。

如果你在AWS的us-tirefire-1中,并且你测试了你的计划,做出了移民到俄亥俄州的糟糕的人生决定,那么在你的DR练习期间,这将会非常有效。在地区性AWS中断的情况下,它的工作效果可能会差得多,因为大约一半的互联网用户将尝试做完全相同的事情。

您的灾难恢复计划是否考虑到EC2实例调配需要45分钟?这是否说明了EBS延迟远高于正常水平?如果你不小心,“一群大象”的问题会把你踩死,而且没有好的方法可以提前测试这一点。

灾难恢复计划也是固定时间点的快照。如果您在一家进行季度灾难恢复测试的商店-剧透:几乎没有一家这样做,尽管他们在审核证明中声称-发生的情况是,您试图运行上个季度的灾难恢复计划,但它遇到了问题并失败。你解决了这个问题,再前进一步或两步,就会遇到不同的问题。您不断重复DR计划,直到它生效,然后您就可以选中表单上的“祝福”框。

除非你一直在测试你的灾难恢复计划,否则它几乎肯定会在你最需要的时候以一种滑稽的方式崩溃。

任何不是由彻头彻尾的小丑撰写的DR计划都必须预先准确地解决其适用的规模和范围。“我们丢失了主数据库”是一个常见且很好的示例,说明了您的灾难恢复计划应该涵盖哪些内容。“世界的四分之三被小行星摧毁”将会有不同的答案--对于我们所有人来说,我们的网站将会关闭,因为在可预见的未来,我们都将有更大的问题要担心。

即使是处于这两个极端之间的事情-比如“AWS失去一个主要地区一个月”-也很可能会滑稽地脱离现实,因为它们没有考虑到人类的行为。

我曾经在一个受监管的环境中工作,在那里我是灾难恢复计划的关键员工。“这是我们在远离旧金山的地方,以防这座城市无法维持工作;那样的话,我们都会在灾难宣布后的四个小时内在这里会合。”

除非这是你第一次遇到我的性格,否则你大概可以猜到那次谈话是怎么进行的。

“是的,打扰一下!问你们一个问题,这真的只是一件小事。我们的电脑都不在旧金山;它们都是云托管在很远的由AWS管理的秘密地点。你能找出一种情况--任何一种情况--AWS失去了一个地区,旧金山出于工作目的不适合居住,这里的一名员工给出了任何类似于工作的废话,而不是他们的家人?此外,让我们假设这种连续三周中彩票大奖的情况发生了;你到底认为我们的哪些员工愚蠢到足以继续以现有的工资工作,而不是成为一些突然面临比我们昂贵得多的问题的公司的顾问,月薪数百万美元?我不记得在我们的章程中,“雇佣对所有事情都非常聪明的人,除了知道自己的市场价值之外”。我错过了那段话吗?“。

在某种程度上,“这太荒谬了,我辞职了”将会是你的员工的反应--他们会是对的。

博士的计划往往会完全跳过这一点,而忽略了更大的图景。当然,好吧-你有一个政策,你的三名高管不能都乘坐同一架飞机(奇怪的是,没有关于他们乘坐同一辆车的政策),但你一提到Azure,你的工程团队就会有一半人辞职。

实际上,鸭嘴组的灾难恢复政策规定,我们用几种不同的方式备份我们的数据。我们完全是远程的,所以如果任何员工的互联网停止工作,他们大概可以在咖啡厅工作,也可以从电话上工作。如果我们的云经济学家居住的多个城市突然变得不适合工作,我们准备在假设没有人会过度关心当月的AWS账单的情况下运营。

实际上,我们采取了一种现实的观点,不依赖于我们的员工在危急关头牺牲自己或家人的福祉。我们没想到皮特·切斯洛克还会继续工作,因为我们都是人,所以我把他公司的汽车托运搞砸了。在某种程度上,你必须有一个超越个人的业务连续性计划--见鬼,我们自己做!-但这种全力以赴的计划不能以忽视人们的基本人性为代价。

如果你的雇主的DR计划是由小丑写的,并且假设你会把他们放在比你的家庭更重要的位置,我建议你找一个新的地方工作。

随时关注最新的AWS新闻、观点和工具,所有这些都充满爱意地夹杂着一些尖刻的言辞。

我们是互联网上唯一尖酸刻薄的资源,几乎所有的东西都是aws…。我们知道这一点。