#hugops的口述历史以及不断壮大的运营工程师社区,他们在大型云服务中断之前和期间为同伴提供支持

2021-03-01 12:36:53

在几乎每个职业中,似乎都有两种类型的工人:获得荣耀的工人和从事任何人都看不到的重要工作的工人-除非出了点问题。

在企业计算中,那些被忽视的人称为运营工程师。他们是使摇摇欲坠的现代互联网Rube Goldberg机器每天崩溃的人们,而他们迷人的同行-软件开发人员-则对发布新功能或创建新产品的认识得到了认可。新服务。

大约10年前,一群面向运营的工程师决定,他们对软件开发人员感到厌倦,他们只要代码交付就不在乎他们的代码是否真正有效。他们对管理层的虐待感到厌倦,他们迫使他们的团队全天候24/7待命,几乎没有内部支持,更不用说认可了。

这些工程师创建了Velocity Conference,以便团结起来:分享他们的生活经验,包括保持世界500强公司运转的巨大压力,讨论解决棘手问题的技巧和窍门,以及作为认识社区的人们聚集在一起当一切都陷入困境时,处于食物链底部的感觉如何。

该社区引发了一场称为DevOps的革命,该思想是软件开发人员和运营专业人员需要更加紧密地合作,以支持在Internet上运行复杂软件的日益复杂的任务。诸如亚马逊和谷歌之类的大公司开始以与开发方相同的激励和奖励来发展运营职业道路,同时也承认这些人需要公司最高层的支持才能完成非常艰巨的工作。

在这个社区之外,还有一个Twitter标签,这是在他们职业生涯中最紧张的时刻向同龄人发出的团队信号,表明团队已经退缩了。当主要的云服务出现故障时,例如在Slack的1月初中断期间,Twitter上的大多数人会看到机会发泄他们的挫败感并为受影响的公司付费,从而获得得分。

在那一刻,知道保持这些服务需要花什么的人散播了一个标签:#hugops。

这是保持云运行的工程师的故事,以及当没有其他人关心时他们如何创建自己的同理文化。

系统倡议组织的首席执行官,厨师的共同创始人,前首席技术官亚当·雅各布·雅各布(Adam Jacob):系统管理员-现在几乎几乎不存在的职务-并不是技术界最受人欢迎的人。我们没有得到太多的尊重。

我们有点像秘书一样在同一桶里。我们有一个系统管理员感谢日。做您看不到的事情的人会得到赞赏的日子,因为从定义上讲,这意味着我不会隔天被欣赏。

[一个团队负责人]带走了我们和我的整个团队,大约有20位系统管理员,在系统管理员感谢日,他带我们全部去喝啤酒。然后他坐在一壶啤酒里,他说的第一句话是,这是你们的家伙。啤酒。太糟糕了,你们当中没有一个人聪明到可以成为工程师。干杯。

Google开发人员关系经理Jennifer Davis:我不知道您是否听说过BOFH系统管理员?有这样一种心态,我们对用户有多残酷和邪恶。

亚马逊CTO Werner Vogels:我认为系统管理员通常是在大多数公司购买软件的时候出来的。传统上,在这些操作中,[软件]开发是一方面。然后是这堵墙,然后您就在墙上扔了软件;而且您不再关心。

O&Reilly Media创始人Tim O&Reilly:实际上,所有的软件管理员都在对其进行清理。而且,软件管理员通常会这样做:确实没有用。

Gremlin联合创始人兼首席执行官Kolton Andrus:在亚马逊网站失灵时,我是10个人中的一员。我从摩托车旁边的高速公路那边接过电话,并设法解决了这些问题,因为我不得不停下来,打电话并立即处理它。我等不及要等十分钟才回家。

有一次亚马逊圣诞节聚会,我在那儿得到了一页,我不得不跑出车去,拿起背包,走进作战室,坐下来解决一个事件,然后再回到聚会上。工程师和操作人员在后台进行了大量工作,进行了许多不费力的工作,以确保一切顺利并得到解决。

Google开发人员倡导者Nathen Harvey:我们在技术上庆祝什么?我们庆祝新的;新功能,提供了我们要交付给客户的新功能。当系统出现故障时,我们会生气。基本上,您要说的是:我们庆祝开发人员,当一切变得糟糕时,我们就会认识到运营商。那不是很好。

雅各布(Jacob):我很早就坐在Chef的房间里,与一群视频游戏开发人员一道,这些开发人员正在运行美国业务,这是有史以来最大的视频游戏之一。他们的老板坐在他们对面的桌子对面,在他们面前对我说,我的家伙还不够聪明,无法学习Ruby。如果您刚刚采访了那个时代的系统管理员,那么他们中的100%都有这个故事。

Orion Labs的创始人兼执行主席,Chef的前联合创始人兼CEO的Jesse Robbins:在运营中,我们总是错过了启动晚会,因为我们在数据中心忙得不可开交,或者被锁在看着绿屏的办公室里支持发射。我们从来没有去过有趣的部分。我们一直都是放弃夜晚和周末的人,我们无能为力地改善自己的状况。

安德鲁斯(Andrus):我在每家公司接受的电话培训总计:这是您的传呼机,祝您好运。你很聪明,你会弄清楚的。

哈维:我记得我和旧金山地区的消防员罗恩·维达尔(Ron Vidal)进行过一次对话。他对我说的一件事是:"消防员在工作中从未遇到紧急情况。如果您的房子着火了,那对您来说是紧急情况,对消防员而言,这就是他们的工作。

罗宾斯:我是一名消防员,经过培训,2001年我加入亚马逊时,是灾难指挥官。是我的头衔。我意识到,我们在亚马逊上运营业务的方式从根本上是无法扩展的,我们需要一个流程和几乎一项文化上的改革。

我开始将亚马逊变成消防部门。我从字面上理解了我们在消防部门使用的事件管理原则,并将其转化为我们所谓的GameDays和Scale Days,本质上使用了事件指挥系统,以便在红灯亮起时通过各种思维方式来支持人们。在。

戴维斯(Davis):很多操作都鼓励这种英雄主义:您必须尽一切努力使其保持运转并投入其中。这不是可持续的工作。这不是很好,这太糟糕了,当您节省一天时却要庆祝,但现实是可怕的。它损害了您的人际关系,损害了您的健康,并只是构架了您与他人合作的方式。

Jeli创始人兼首席执行官Nora Jones:我们正朝着这样一种时代转变:人们将问题和事件视为症状而不是某种原因,并试图了解那些正在发挥作用的更大系统组织。

Robbins:我在Amazon拥有可用性,当我说拥有它时,我有点像暴君,并且非常积极地运行它。 [在2000年代初期]我们发生了如此大的故障,而且当我走进房间时,他们的职业生涯初期就有一个人在发抖,因为他们非常害怕即将发生的事情。

我意识到,我必须改变我完全采用这种方法的方式,并使其能够安全地进行实验,可以安全地进行其他事情,而不必具有这种惩罚性的模型和方法。看到那个人的脸我喜欢的地方,哦,我不是消防部门,我就像一个坏人。我是小人。

罗宾斯:早期的所有工作都有一种精神,那就是认识到彼此相待的重要性。我早期在亚马逊所做的部分工作是营造一种安全文化。只有能够安全地承担巨大的风险,您才可以做非常大的事情。

Adaptive Capacity Labs的创始人兼负责人John Allspaw:这些主题值得参加整个会议。我想这不应该是整个会议,而是更多的人说服蒂姆·奥莱利(Tim O&Reilly)真正做到了。

O' Reilly:他们说,“看,我们需要一个集会场所供我们的部落使用。”之前,我们已经为各种开源社区做到了这一点。其中许多东西都植根于社区,因此,如果您能确定要建立的社区,则可以从将它们聚集在一起开始。

Allspaw:[Velocity Conference]所做的事情很重要,因为这是一个信号,表明可以将软件操作和理解事物的运行方式并预测可能出现问题的事物与软件开发区分开来。

Fastly联合创始人兼首席架构师Artur Bergman:我们所做的工作与编写代码一样重要。如果您无法运行该代码,则它没有任何价值。

Vogels:与需要操作软件的时间相比,开发软件的时间实际上是很小的。因此,即使您可能要构建复杂的东西,也可能需要一年或两年的时间才能完成构建,但是您可能还要运行很多年。

雅各布:速度就像是第一次在一个非学术性的地方,每个从事这项工作的人都可以聚在一起。资金充裕,漂亮。感觉不像我们在美国退伍军人大会堂之类的地方见面。这是一次他妈的会议。

Allspaw:我们发现了这个相当重要的共同点。许多年来,他们没有地方摆放这些想法,甚至没有标签,术语或词汇来谈论这种可怕的恐惧,甚至实际上是完全的恐怖。 #39;坏了,我们不知道。

因此,您的这种亲身经历很不错,您和同事在一起,狗屎破烂了,您没有100%的清晰度,但是您已经有几个看起来很有成果的好主意。好的,看来我们应该将此事物连接到该事物并重新启动另一事物?我们应该按顺序进行。您对此有何看法?"您会在IRC中看到此消息,那时我们没有Slack。

之所以召开这次会议,是因为我们在事件方面有了共同的经验,而总的挑战不仅是应对事件,而且还试图制定出将来如何预防事件的方法。而且这是艰巨的工作。

雅各布:我是一个非常谦虚的人。因此,我一直(以速度)拥抱所有这些人。因为这件事发生在这群人中……他们的工作环境不是一个该死的拥抱的地方。

戴维斯:我们正在建立包括人员在内的复杂系统。那么,我们如何处理复杂系统无法预测的压力呢?当您考虑拥抱时,拥抱可用来减轻痛苦。它们习惯于表明您在乎,并且习惯于减少恐惧。

雅各布:亚瑟·伯格曼(Artur Bergman)曾经是-是吗? -一个特别咸的家伙。他发誓和我一样多,甚至更多,而且他是瑞典人,所以就像他发誓时一样,会更好。

阿图尔不是一个拥抱的人。 Artur可能会受到我的拥抱,或遭受John [Allspaw]的拥抱。在某个时候,约翰制作了一件T恤衫,这是我记得最早的#hugops-y事情,在它的背面基本上写着“拥抱阿图尔·伯格曼”。

伯格曼:[在一个速度中]我作了主旨演讲,然后[亚当]作了主旨演讲,他告诉人们要拥抱我,但我不知道他是这么说的。在会议的一天中,随机的人开始拥抱我,这让您非常不舒服,尤其是因为我不知道为什么。因此,我在一天余下的时间里一直躲藏起来,直到最后我终于找到了发生这种情况的原因。

雅各布:那是一个非常特别的时刻,那时候有如此高度的志同道合者,也有如此之多的熟悉度。

Allspaw:捕捉这种真正的恐惧,这些非常可怕的,充满压力的情况,加剧了您成为这个部落的一部分。我不知道你是谁,但你在这里,你在说话,所以我认为拥有真正的共同点才是真正让人们喜欢的,我给你一个拥抱吗?"

雅各布:我们认识所有这些[大型科技公司]的人,对吗?因此,当每个人都开始认识对方时,Facebook就会中断,您将使用#hugops主题标签,就像从字面上与您的员工交谈一样。

罗宾斯(Robbins):以讽刺开玩笑拉扯我最好的朋友之一开始的想法变成了很多人团结起来的想法,这并不奇怪,因为这反映了他们不断建设的世界,他们正在不断改善。

戴维斯:这只是关怀的信息。简而言之,就是我对你在哪里很同情,因为我有时会在那儿。我希望您也向我展示同理心,但是,您知道吗?你不是一个人。

琼斯:我们现在真正看到的是软件行业的转变,我们不断努力并了解我们的软件非常关键。但是人们在编写此软件时承受的压力很大。

放松一下。在那次停电期间,他们都刚回来,这是每个人从新年回来的星期一。我无法想象在那个办公室里,因为您只是习惯于再次编写代码,您只是习惯于再次部署事物,然后突然之间,整个世界恰好同时登录Slack。完全有理由知道他们那天发生了一起事件。

我认为我们从"中看到的部分内容从事件中学习"社区只是思想和软件上的一种转变,说,“好,他们没有做错什么。发生了一些对他们有意义的事情,使他们能够做自己想做的事情,并允许这种对话发生。

Robbins:之所以发生这种转变,是因为我们实现了这种转变,部分原因是因为我们非常清楚地表明,大型企业,大型组织无法使用这种过时的企业软件传统思维方式来取得成功。永远在线,随时在线,您一直在进步,这意味着应对故障并实现快速变革。

我认为我们现在正处于运动的第二章,该运动的新领导者不断涌现和发展。它还不是MBA课程的一部分,但很快就会成为。

安德鲁斯:组织内的惯性很难。您可以由10人组成的团队快速开展工作。您是一家初创公司,您有100个人,您可以更改流程。您有10,000名工程师,要让每个人改变过去一两年来他们做事的方式要困难得多。

哈维:#hugops运动及其背后的思想真正在说,"我们如何为我们每天与之互动的其他人建立更多的同理心?"在我看来,它当然超越了技术。

作为一个社会,我们可以从中吸取一些真实的教训:我们如何更好地同情和尊重工作以及人们在工作中表现出来的方式,以及大家都知道的事实在那里利用他们所拥有的东西尽其所能吗?我认为那真的非常重要。

戴维斯:每当我听到" NoOps"或" NoDev,"我喜欢," Nooooo…。"因为当人们说机器人和自动化将要接管时,这并不能说明所有这些复杂性是人类真正擅长的。

是的,减少工作量真是太好了。我们可以进行有关如何平衡可用性,如何在解决问题上花费多少的对话,并使这类对话与“只是消灭所有人类,因为人类会犯错误。"人类在构建我们所依赖的东西时会犯错误;我们需要人员进行安全检查。

Bergman:如果您长时间中断服务,则需要关心您的员工及其睡眠时间表,以及他们必须吃饭的事实。而到了第四天或第五天,如果您没有这样做,您将只会有一堆真正疲倦且脾气暴躁的人,他们会犯更多的错误。

安德鲁斯:我确实在亚马逊和Netflix上享受过这样的方法,即您应该知道软件的行为方式。如果您已经编写了软件并进行了部署,然后对它视而不见,那不是一个好的工程。

戴维斯(Davis):如此迷人的是,下一代不会忍受这种消极的东西。他们正在设定期望,并且非常清楚他们希望自己的工作环境如何以及如何工作。

琼斯:我们需要提出不同的问题,我们需要让更多的人坐在桌旁。我接触过太多组织,这些事件只是房间中的[现场可靠性工程师]。它应该在会议室中进行市场营销,应该在会议室中进行公关,应该在会议室中进行客户服务,应该在会议室中进行领导。但这被认为是一种SRE问题,就像SRE必须为任何类型的情况做好准备一样。

不久前我在一个组织中,我们推出了超级碗广告。而且,我们在发布广告时遇到了一些麻烦,但是SRE团队并没有收到大量有关该广告正在发生的通知,我认为这是当日通知,也可能是提前两天,但这并不是事后审查中确实提到过。

安德鲁斯:#hugops的另一面是,我确实认为应该对那些公司的领导者承担责任。我们对正在处理他们所处情况的工程师很同情,但这在一定程度上是因为领导层没有将他们的行动放在优先位置,或者弹性和可靠性与他们在某些情况下的优先次序一样。他们的产品努力。

Allspaw:正如我的同事Richard Cook博士所说,这些系统出现故障,我们不应该感到惊讶。 我们应该惊讶于他们像往常一样经常熬夜。 伯格曼:我们从事的工作对于运营全球最大的网站和互联网至关重要,这种工作被低估了,将其转变为一项运动,并通过DevOps进行了现代化,并为这些人提供了职业发展道路。 雅各布:当您看到一辆漂亮的汽车时,谁会赢得信誉? 您不相信技工。 您就像,伙计,保时捷的那些家伙真的制造漂亮的汽车。 您可能知道,例如,伟大力学史上的一位传奇力学。