互联网是如何在周围的社会关闭的情况下继续运行的

2020-05-08 01:31:23

这应该会让你不寒而栗:如果在冠状病毒大流行期间,互联网崩溃了怎么办?

如果就在纽约市、底特律和新奥尔良的医疗危机开始螺旋式上升时,这些地方的互联网已经停止工作-一次一个小时,下午晚些时候几个小时?如果网速降到正常速度的一半会怎么样?如果它只像美国的卫生纸或N-95口罩分销系统那样起作用呢?

“哦,天哪,”Kentik公司的首席执行官阿维·弗里德曼(Avi Freedman)说,该公司帮助Zoom和Dropbox等大客户最大化互联网性能,“一切都将结束。”

现在,几乎整个国家似乎都在同时上网,我们中的许多人同时使用两到三个设备-用于紧急工作会议和与母亲交谈,用于大学化学讲座和邻里瑜伽课,用于杂货购物和疯狂观看视频。数字生活急于填补社会疏远造成的空白,允许一些表面上的常态,并保持经济的某些部分对商业开放。事实上,互联网让我们做的事情是人们愿意呆在家里并且能够做到的很大一部分原因。在这场危机中,在一定程度上,任何机构都能将美国社会紧密联系在一起,那就是互联网。

在美国,美国最大的互联网提供商之一美国电话电报公司(AT&;T)的互联网流量从3月中旬开始几乎立即增长了20%。截至4月底,工作日的网络流量比1月和2月典型的周一至周五期间增加了25%,而且没有任何减弱的迹象。这听起来可能不是很多,但想象一下,突然需要立即在美国高速公路上增加20%的长途卡车,或者增加20%的货运列车,或者每天增加20%的航班离开美国的每个机场。事实上,这些基础设施系统都不可能立即提供20%的额外容量-或者在几个月内日复一日地维持这种能力。

是的,有过打嗝的情况。弗里德曼指出,“我们不仅看到了流量的增加,而且还看到了短期停电的增加。”你的笔记本电脑-或者你试图在上面使用的应用程序-很可能会不时地提醒你,你的互联网连接很弱。但弗里德曼说,这并不令人惊讶,也不令人担忧,因为我们已经将增长“在一两年内发生,并将其压缩到六周内”。

发生这一事件的故事可能不会涉及我们在新奥尔良或纽约看到的那种危及生命的英雄行为。但是,在美国对冠状病毒的反应中有如此多明显的功能障碍,作为这场流行病的无名英雄,互联网是值得欣赏的。它之所以继续存在,是因为外面的人们一直在保持它。互联网的表现不是偶然的,而是长期规划和适应能力、独创性和辛勤工作的结果-也是一些已经成为互联网本身个性一部分的特征。

AT&;T拥有1810亿美元的收入,是目前为止美国最大的电信公司,也是第三大宽带互联网提供商,仅次于有线电视公司康卡斯特(Comcast)和查特通信公司(Charge Communications)。它也是最大的互联网流量载体之一,它还帮助管理互联网主干-隐藏光缆的关键高速公路,构成了互联网承载能力的主要部分,横跨美国,跨越大洋到达欧洲和亚洲。因此,当我试图理解为什么互联网没有在当前的压力下崩溃时,AT&;T似乎是一个很好的起点。

互联网公司不会例行公事地披露自己的网络表现。但当我伸出援手时,美国电话电报公司(AT&;T)同意拉开帷幕,分享数据,并允许我采访关键员工。在某些方面,他们讲述的故事是美国电话电报公司(AT&;T)特有的,但在另一些方面,它描绘了整个行业的图景,揭示了这场流行病如何改变了我们对互联网的使用,以及它为保持互联网运行所采取的措施。

在大流行前的世界里,工作日在互联网上相当平静。大多数正常的工作程序对网络要求不高:电子邮件、松弛消息、加载网站、共享文件。

美国的网络流量通常会在晚上9点左右回升,因为我们中的数百万人开始使用Hulu或Netflix、迪士尼+或亚马逊Prime Video进行解压。Netflix在美国拥有6000万订户(其中许多是多用户会员)。Hulu拥有3000万订户,迪士尼+3000万,Prime Video 4000万。即使考虑到重叠,超过一半的美国人可以在任何一个特定的周二晚上观看流媒体视频。(一项研究显示,70%的美国家庭订阅了流媒体。)。而流媒体视频占用了大量的互联网带宽。随着人们收看节目,整个网络上的互联网流量每晚都会上升。

美国电话电报公司(AT&;T)技术业务负责人克里斯·桑巴(Chris Sambar)表示:“过去,主干流量的高峰期是周六和周日晚上。”该部门拥有2.2万名员工,负责建设、维护和运营公司的全球网络。星期天晚上,美国人“不出门”。我们呆在家里看录像带和电影。周日晚上一直是交通流量的高潮期。“。至少到2020年3月中旬。

3月13日(星期五),美国电话电报公司(AT&;T)告诉员工,所有可以在家工作的人都应该开始在家工作。在接下来的周一,该公司超过三分之一的员工(约9万人)开始在厨房餐桌上工作。同一周,许多员工可以在家工作的公司也做了同样的事情。州和地方政府很快就下达了呆在家里的命令。桑巴尔说,很快,“我们开始看到本周中期的峰值。”在通常安静的白天和工作日的晚上,使用量都在急剧上升。“我们开始看到一周中有好几天相当于周日。”

首先,数千万通常与同事或同学面对面会面的美国人现在通过互联网这样做,使用音频和视频会议、Skype、Zoom、FaceTime和Webex。突然之间,白天的互联网上充斥着高需求的视频流量。

其次,所有这些联系都是从家里的餐厅桌子和沙发上建立起来的。市中心的大型写字楼,杂乱无章的办公园区-这些都有强大的互联网连接,因为有太多人依赖它们,而且一些工作职能(如股票交易)需要超快、超级响应的连接,而这些连接一点都不慢。住宅区则不会。

美国电话电报公司(AT&;T;)的数据显示,在企业倒闭、人们开始在家工作后的一个月里,我们使用Wi-Fi作为初始连接的电话数量(即所谓的“Wi-Fi通话”)在白天几乎翻了一番。我们在家里跳上手机与同事交谈,通常电话认为蜂窝网络本身太忙了,最好使用Wi-Fi连接电话。

在这同样的四周里,随着我们习惯了视频会议和背靠背电话会议这一新鲜的日常生活,AT&;T表示,在每个平台上,全网音频和视频会议的分钟数增加了5倍--这一惊人的跃升与每个人每天沉浸在Zoom中的情况一致。

换句话说,我们一下子开始使用更多对数据要求更高的技术,而这些技术恰恰不是为处理这种需求而设计的。“这是一个事件,”桑巴说,“不同于我们所见过的任何事件。”

A互联网总是说,这不是一个地方,无论你去哪里,都不仅仅有一条路线:众所周知,它是一个连接的网络。美国电话电报公司(AT&;T)的网站以一种奇怪的精确度报告说,每次你在其移动网络上拨打电话,都可以通过134条不同的路由进行转接。对于你通过网络进行的任何旅行来说,本质上都是如此。如果最佳路线出现问题,电话、电子邮件、亚马逊订单都会采取另一种方式。

从这个意义上说,互联网很像美国的高速公路和公路系统。有几条通往家庭和企业的双车道小路。还有更大的次要道路,上面有更大的商业和住宅综合体。还有州际高速公路,那里的交通很长一段时间都很快,没有很多出入口。互联网拥有几乎完全相同的连接网络-跨越大陆、穿越大西洋和太平洋的大型、高速、大容量的连接网络;城市内部的中型连接网络;以及直接连接到个人家庭和企业的“最后一英里”连接。

拥有通往任何给定目的地的多条路径是互联网原始设计的一部分,随着网络的扩展,这一特点一直被保留下来。这在很大程度上赋予了互联网适应性和弹性。就像关闭一条道路进行维修不会阻止人们开车去他们需要去的地方一样,特定的地方问题或互联网技术的中断通常不会导致交通脱轨。

但同样的情况是,居民区的设计没有互联网高容量部分的容量和灵活性-就像居民区街道的设计没有I-95的容量一样。

即使你有一条光纤连接到你的房子,它也和连接到办公楼完全不同。互联网和移动电话网络都仍然依赖于大量的中央交换局-模仿一个世纪前电话系统的中心局-从社区收集电话和互联网流量,并将它们路由到更大的网络中,反之亦然。你家的光纤连接是所谓的互联网“最后一英里”基础设施的一部分-从那些中央办公室到分支机构和小企业。在你自己的社区,“路线灵活性”比你所在的城市或地区要小-就像街道或电网一样。事实证明,最后一英里是今天许多互联网工程师和技术人员关注的问题。

事实证明,互联网的另一个更新的元素在我们现在所处的时代是不可或缺的:云。我们所依赖的大部分软件和信息--我们的gmail收件箱、松弛频道、各种重要的企业和政府数据库--并没有存放在我们公司办公室24楼一扇锁着的门后面的一系列高柜里。它掌握在亚马逊(Amazon)和微软(Microsoft)、谷歌(Google)和IBM手中,在由专业数据辩论者运营的巨大设施中,他们拥有额外的巨大设施作为后备。当我们坐在键盘前访问数据时,亚马逊和IBM并不关心我们在哪里。这种云基础设施,再加上互联网自身连接网络的弹性,让我们在任何地方都可以自由地工作。

过去不是这样的-你过去必须在工作和计算机都要做那项工作的大楼里。阿维·弗里德曼(Avi Freedman)说,20年前的互联网很难在类似大流行的危机中帮助我们。“与互联网在20世纪90年代最好的时候相比,我们现在最糟糕的时候表现要好得多。”

云也有效率和额外的容量作为其操作结构的一部分-点击鼠标就能增加计算能力-因为在某个地方,谷歌和微软都有服务器在等待。事实上,这是他们为快速增长的数字公司提供的一部分:无需这些公司购买和配置自己的计算机,就可以立即增加容量。云意味着我们可以在任何地方做任何事情。

事实证明,在大流行期间,互联网本身就是在家运行的东西之一。

A已经在AT&;T工作了20年--她从客户服务开始,然后获得了电子工程学位,在过去的13年里,她一直是该公司的网络工程师。

格雷厄姆可以看透互联网。当出现问题时-当车祸导致设备故障,当交换机或网络路由器出现故障-她可以点击进入不起作用的组件,并获得依赖该路由器或交换机的企业客户的列表,以及谁可能会失去互联网连接。

这就是她的工作:保持商业客户的联系,如果可能的话,发现问题,并紧急提供维修服务。格雷厄姆没有直接与AT&;的客户交谈,但当问题爆发时,她会确保照顾这些客户的人知道发生了什么,通常是在公司IT部门弄清楚并打电话给AT&;T之前。

格雷厄姆在美国电话电报公司(AT&;T;)的网络总部--位于荷兰隧道以西40英里的新泽西州贝德明斯特的全球技术运营中心(AT&;Ters称之为“Gee-tock”)--花了三年多的时间来做这件事。GTOC有一种任务控制的氛围:安静,昏暗的灯光,三排工作站面对着一堵12英尺高,250英尺宽的弧形视频墙,几乎相当于一个足球场的长度。这面墙由141个屏幕组成,向房间里的人们展示他们可能想要的关于AT&;网络和互联网的任何重要迹象。视频墙还显示实时天气数据和24小时新闻频道-因为天气和新闻通常会告诉你互联网即将发生什么事情。GTOC一年中每天都有三班制;在里面,凌晨2点。和下午2点。不要觉得有什么不同(尽管我们对网络的使用是不同的)。

格雷厄姆最近在达拉斯的GTOC的一个较小的版本中工作,做着她在贝德明斯特所做的同样的工作。从3月16日星期一开始,她开始登录她的常规班次,从早上5:30开始。到下午2点,从她的起居室。

格雷厄姆可以发现网络中的拥堵-指示器是红色的而不是绿色的,就像你在谷歌地图上的路线在事情放慢时是红色的。但现在,格雷厄姆不再关注她的商业客户聚集的城市、市中心、摩天大楼和办公园区,而是关注郊区-这些客户的员工现在居住和工作的地方。

“地方层面现在是商业层面,”她说,“这是非常不同的。我们非常清楚人们感受到的压力。“。每个人都需要手机和笔记本电脑来保持联系;我们每个人都成了自己的IT帮助台。“前几天,就在德克萨斯州,我们的U-Verse中断了”--AT&;T的住宅互联网服务,相当于Verizon Fios。网络中的以太网卡出现故障。格雷厄姆说:“大约有1000名客户减少了。”“这是非常例行公事的。”当然,如果你是这些客户中的一员,这并不令人愉快,但这与短暂的电力故障没有太大区别。

互联网现在是如此复杂,流量现在是如此巨大和快速,以至于在美国电话电报公司(AT&;T)和其他管理互联网的公司,大部分管理都是自动化的。该网络使用人工智能来提高效率;它在备份和停机时重新路由。所有这一切都由网络工程师监督,但调整的速度比大多数情况下人类所能跟上的速度都要快。

然而,该网络通常不会被编程为在小区小故障时重新路由流量-部分原因是涉及的用户太少,部分原因是网络的最后一英里部分没有太大的灵活性。

格雷厄姆说,当这一特殊的本地停电发生在中午时,“我从我们的一名销售代表那里得到了一条消息。”该社区是美国五大银行之一的员工的聚集地-数百名无法连接的家庭用户。通常情况下,AT&;T的技术人员需要几个小时才能到达正确的中心局并更换损坏的电路板。在一个典型的工作日,可能有120人在附近的家里,AT&;T会认为这是一个合理的维修速度。

格雷厄姆说:“但现在这是一个更大的问题。”从本质上讲,它是一座虚拟银行办公楼,里面有数百名无法胜任工作的人。“我们不会接受这样的停电,并试图正常改变路线。”但在这种情况下,她和她的团队能够找到一种方法来做到这一点,所以在实际物理修复之前恢复了互联网服务。

整个互联网和AT&;T网络部分的流量激增是非同寻常的,20%的增幅并不能完全捕捉到这一点。美国电话电报公司(AT&;)的网络每天额外承载71PB的数据。71拍字节是多少钱?相比之下,2014年底,美国电话电报公司(AT&;T)的总网络流量为每天56PB;在短短几周内,美国电话电报公司每天接收的新流量就超过了6年前的总流量。(在大流行期间,AT&;T网络每天大约传输426拍字节--1拍字节相当于100万GB。)。

这给该公司带来了压力,要求其确保在任何给定时间通过网络的路线尽可能多地开放和不拥堵。随着互联网使用的地理位置发生变化,该公司还争先恐后地在需要的地方增加容量。例如,在3月份的某个时候,芝加哥和亚特兰大的流量增长如此之快,以至于这两个城市的数十名技术人员和工程师通宵工作,添加了新的光纤连接和路由器。AT&;T网络负责人桑巴(Sambar)表示,AT&;T的网络被设计成“有足够的净空空间”。“但我们在全国各地都在玩打地鼠游戏。”

大流行没有破坏互联网的最简单解释是,互联网从一开始就被设计为牢不可破。(互联网的早期先驱,ARPANET,旨在通过重新路由网络信号来在核攻击中幸存下来。)。

这一原则仍然影响着它的建造方式,也影响着它的管理和维护方式。美国电话电报公司(AT&;T)等网络公司和亚马逊(Amazon)等云公司致力于将中断和减速降至最低,即使在正常环境下也是如此。这一点反映在员工和基础设施等资源的绝对数量上。

可靠性-“正常运行时间”-是宽带世界的一个关键卖点;互联网服务提供商为确保这一点而配备了工作人员。他们建立了过剩的产能,以便能够有效地应对危机,并远远领先于互联网需求的惊人增长。在这个过程中,互联网近乎完美的正常运行时间已经成为互联网本身的一个操作特征-这一假设内置于我们的各种日常使用中,从管理电网和航空旅行等关键任务系统,到在Slake上发送消息以及流媒体音乐和视频。企业和政府机构-以及我们每个人-都假设了一种无处不在的连接。

这种设计理念与美国其他经济领域的运作方式截然不同。这场大流行向我们展示了完美优化系统的不利之处--从ICU床位和病毒采样棉签的供应,到面包师酵母的可获得性。我们一直极度缺乏这三样东西,正是因为我们花了数年时间调整供应链,所以我们现在只有我们现在可以使用的量,而不会出现空置的ICU床位或闲置的棉签制作机的“浪费”。通过这种方式,拯救了互联网的东西-冗余、灵活性、过剩容量-不仅反映了一种不同的设计理念,也反映了一种不同的潜在经济理念。

A代表灾难。去年5月,该公司进行了一场内部战争游戏,内容是大流行将如何影响其保持电话和互联网服务运行的能力。该公司经常进行这些演习,试图做好准备-。

..