运动事件的冷酷现实

2020-11-30 05:30:20

这个假期,给您的非技术朋友和家人一个礼物,让他们最终了解您的生活。朗读云适用于所有年龄段,并且现在在Amazon享有20%的折扣!

我的宠物爱好之一是收集复杂系统的示例,人们花费大量时间来使自己对独立错误产生抵抗力,但这些错误却被没有人看到的系统错误所压倒。

与随机的,孤立的故障相反,系统性错误是会感染并歪曲系统各个方面的错误。在实验室中,这可能是设备本身的校准错误,使所有观察都无用。

在实验室之外,系统错误可能意味着生与死之间的差异,有时甚至是字面上的差异。泰坦尼克号的船体包括16个“水密”舱室,这些舱室应能封堵漏洞,防止个别故障扩散。这就是造船厂吹嘘泰坦尼克号不沉的原因。相反,系统设计错误使水从一个隔间溢出到另一个隔间。冰山一撞到船体的一部分时,整个船就注定了。

或进行选举预测。 2016年,几乎每项民意调查都预示了希拉里·克林顿(Hillary Clinton)的压倒性胜利。但是事实证明,民意测验员系统地低估了关键州对唐纳德·特朗普的热情-也许是由于特朗普选民的害羞或行业偏见,没人真正知道。如果他们知道,那么也许每个民意调查都不会犯同样的错误。但是他们做到了。四年后,没有人再信任选举建模行业了。

那把我们带到星期三。 us-east-1中的几项AWS服务因一天的感恩节休息而来,原因是此后在我家附近被称为Kinesis事件-如果Clive Cussler写了关于ulimit的惊悚片,这听起来像是一本机场书店的小说。

请阅读AWS全面的死后详尽解释,但请快速总结:在周三下午,AWS向Kinesis Data Streams控制平面推出了一些新功能,这违反了操作系统线程限制;由于KDS的这一部分架构不足以实现高可用性,因此它崩溃了很长时间并且需要很长时间才能恢复。同时,其他几项依赖于Kinesis的AWS服务也进行了不同温度和持续时间的沐浴。

在整个漫长的周末中,AWS Twitter上不断涌动着许多热门话题,就像在2017年S3发生严重故障之后一样。根据您听的对象,Kinesis事件是…

关于操作系统配置的道德故事! (我是说,当然,但这不是有趣的部分。)

多云的另一个论点! (不是的,在工作负载级别的多云仍然是昂贵的废话;请参阅先前的Cloud Unregular,以获取何时在组织级别使用多云的解释。)

建立多区域应用程序的争论! (从表面上看,这听起来更合理,但可能并非如此。多区域架构-我已经建造了一些!-价格昂贵,有很多活动部件,并且几乎限制了多云的服务选择。区域是多云的令人毛骨悚然的小弟弟。除非必须,否则请不要照看。

* AWS内部服务架构*是多区域的论点! (我不知道这将如何在合规性方面发挥作用。我认为这只会使一切变得更糟,更古怪,并使每个人更加困惑。)

忘了热门。这是一个冷酷的现实:Kinesis事件不是一个独立的,随机错误的故事。这不是一次性的事件,我们可以通过配置更新或架构选择来抛弃我们。

在读过AWS验尸报告后,Scott Piper试图绘制出上周受影响服务的内部依赖关系树:

Scott的推文中的图形实际上低估了该问题-例如,没有Kinesis也就意味着没有AWS IoT,这反过来对Ben Kehoe和他的无服务器Roombas军来说是一个糟糕的夜晚,更不用说门铃和烤箱故障了,谁知道呢? 。

现在,物联网团队已经了解到,他们的工作负载与Kinesis流紧密地交织在一起。但是谁能想到Kinesis故障会消灭AWS Cognito(一项关键但看似无关的服务)呢? Cognito-Kinesis集成发生在后台。 Cognito团队显然使用KDS分析API使用模式。客户没有理由永远不需要知道……直到有人必须解释为什么Kinesis拒绝了Cognito。

但情况变得更糟。根据验尸报告,Cognito团队实际上有一些缓存可以防止Kinesis的消失。在实践中只是效果不佳。因此,这些单独的服务团队正在滚动他们自己的容错系统,以减轻他们可能无法完全理解的上游依赖性带来的意外行为。您想打赌什么?Cognito并不是唯一一个故障保护功能不够完善的服务吗?

(这不是一个随机错误的故事,这是一个系统故障的故事。)

随着新的更高级别服务的出现,AWS内部服务图中的边缘正以几何级数增长,通常直接使用Kinesis,DynamoDB等的核心服务。客户可以清楚地看到这座叠叠塔中的一些砖块,例如物联网的Kinesis白标;其他人将使用内部连接器和中间件,直到下一次中断,这些人和人才看到。

Cognito取决于Kinesis。 AppSync与Cognito集成。毫无疑问,将来的高级服务将在后台使用AppSync。修复一个配置文件,强化一种故障模式并不能支撑整个塔。

唯一的结论是,我们应该期待未来的Kinesis事件,并且我们希望它们的范围逐渐扩大,并且难以解决。

这是什么系统性故障?两人披萨队。 “二比零好。” “越糟越好”的产品策略优先于交付新功能而不是跨功能协作。这些是帮助AWS吃云的原理。它们创建对独立故障具有高度弹性的服务。但是尚不清楚它们是否构成了整个AWS的系统弹性的秘诀。随着时间的流逝,虽然核心服务中的错误发生的可能性越来越小,但建立核心服务中的单个错误将产生滚雪球般的,叠叠式崩溃的可能性。

确实,令人惊讶的是,这些级联中断每周不会发生两次,这证明了AWS整体上杰出的工程学科。

但是,随着新的,更高级别的AWS服务的爆炸式增长(该季节到来了–我们将在re:Invent上再见到几十个),并且依赖图变得更加复杂,更加脆弱,我们应该只期望级联故障会增加。它是系统固有的。

AWS自己的验尸计划不承诺对OS线程的卫生状况保持更高的警惕,但它暗示了正在进行的努力,即“蜂窝化”关键服务以限制爆炸半径。我不完全了解如何避免依赖服务造成的错误假设,并且我敢打赌大量的AWS PM也不这样做。但是是时候与客户建立对确切期望的信任。

我已经要求AWS对他们对自己的服务的内部依赖性进行全面的公开审核,并制定将客户与未使用的服务失败隔离开来的计划。也许一切都很好。也许Kinesis事件只是装甲中的一个漏洞,而且AWS多年来不会再遭受这种程度的中断。但是,现在我还没有理由相信这一点,而且我确定我并不孤单。

关于这一点,re:Invent从星期一开始!已经三个星期了!它是免费的,它是虚拟的,它只是。所以。许多。我将尝试在A Cloud Guru通过电子邮件发送每天的简短执行摘要。确保您关注那里的博客,以获取我,其他AWS Heroes甚至某些特殊的AWS服务团队来宾的大量分析和新功能的深入介绍。我可能还会在其他几个地方弹出。

爱尔兰科技新闻对The Read Aloud Cloud进行了很好的评论。他们承认:“在大多数情况下,押韵是有效的”。我要买它!