Smaug,全新的OVHcloud骨干网络基础设施

2020-08-13 19:37:16

OVHcloud网络有34个POP(入网点),分布在欧洲、北美和亚太地区。与其他提供商相比,OVHcloud网络的全球容量约为21Tbps,可以处理更多的流量。

在OVHcloud,网络流量不断增长,以满足数百万互联网用户的需求,这些用户使用我们遍布全球的31个数据中心。

在过去的几年中,OVHcloud一直致力于改善我们全球主干网络的基础设施。

经过近两年的研发,OVHcloud网络团队已经拿出了一个全新的基础设施。每个数据中心都连接到多个POP(入网点)。POP与各种其他OVHcloud数据中心共享流量,并与不同的提供商(称为对等点)交换流量。

当前的体系结构在内部被称为“粘性路由器”,基于用于路由的路由器和充当电源板角色的交换机。几年来,它一直工作得很好(而且成本很低),但就带宽而言,该方法最终达到了极限。我们需要找到并设计另一个能够处理日益增长的流量的系统。我们的要求很简单;我们需要一个低成本、低功耗、高效且可扩展的基础设施。

自Octave Klaba创建以来,为我们的全球客户提供尽可能好的连接一直是公司的动力。要做到这一点,我们希望尽可能连接到当地提供商,需要10Gbps或100Gbps的多个端口。

端口容量:必须基于100Gbps和400Gbps端口,并具有良好的成本效益。这将有助于消除网络中的任何瓶颈。它还需要为那些没有为100Gbps端口做好准备的提供商维护10Gbps链路。

易于升级:在容量方面,新架构需要易于升级。这在一定程度上是为了公司的发展,但也是为了在POP需要网络维护时保持可用性。

电力:团队需要找到最好的硬件来最大限度地提高电力消耗效率;特别是在像新加坡这样的国家,那里的电力消耗很贵。

安全性:一个关键要求是与我们的安全团队合作,找到保护网络免受威胁(大规模DDoS攻击)的最佳解决方案。

经过近一年的研究和测试,设计团队提出了一个全新的架构,该架构具有可伸缩性、高能效、易于安装和健壮等特点。新建筑被命名为Smaug,以“霍比特人中的龙”命名。

为了具有适应性,该架构有多个容量选项,具体取决于POP的大小。这是因为在不同的数据中心交换的流量不同。每个容量选项都有自己的特殊性,目标是不会出现瓶颈。

Smaug是一个“脊梁和树叶”的基础设施。这意味着“脊椎”(称为SuperBackbone的SBB)聚合树叶并连接每个数据中心。“叶”设备(PeeringBox称为PB)用于连接提供商以及xDSL设备或OVHcloud Connect等内部服务。

Smaug基础设施还提供了另一种连接数据中心的方法,该数据中心至少有两个POP,且都位于不同的位置。例如,在新加坡,我们的数据中心连接到两个POP,两个POP之间的距离超过30公里-这符合两个POP不使用相同电源的规则。

为了确保冗余,两个POP需要以巨大的容量相互连接-100Gbps或400Gbps,具体取决于POP。传输团队还参与了一种名为“银河”的新基础设施的开发。Galaxy基于不同的构造函数-结合了易于部署、可扩展的运营模型,能耗更低。

枝叶的作用非常简单,类似于数据中心机架的顶部。它具有通向主干的巨大上行链路容量,并具有连接BGP对等点的配置;例如传输提供商、专用互联(PNI)和互联网交换。

长途链路:它具有基于100Gbps的链路连接,指向数据中心和POP。

路由:它拥有完整的路由表,以便选择通往OVHcloud数据中心或外部网络的最佳路径。

保护:*vac团队通过开发新的保护工具参与其中(更多信息:https://www.ovh.com/blog/using-fpgas-in-an-agile-development-workflow/)),以帮助保护整个OVHcloud网络免受DDoS攻击。

在设计团队和管理层确定它是OVHcloud网络的最佳架构后,我们开始测试不同的品牌,前提是所有功能都实现正确。在实验室完成所有测试后,我们确信解决方案是可行的,然后开始在新加坡部署基础设施。就交通增长而言,该地区是最重要的地区之一。这也更容易,因为我们已经有了用于数据中心和POP之间链路的暗光纤。

一月份,我们订购了所有设备和收发器,然后准备了迁移计划,以便将整个部署安排在三月底。2月底,我们准备了配置并测试了全新设备。一切就绪后,我们就把它们都送到新加坡老爷子那里去了。

一开始我们计划在2020年3月中旬进行这次迁移,我们本来应该把我们的技术人员从法国派到新加坡,但由于新冠肺炎的原因,我们不得不改变了计划。我们不得不找到另一个解决方案,并请我们在新加坡数据中心工作的当地技术人员来做这项工作。由于大流行需要进行新的重组,移民计划变得更加复杂。

经过管理层、网络团队和新加坡OVHcloud技术人员的长时间讨论,决定在4月初做第一个POP的迁移,在4月底做第二个POP的迁移。迁移开始于将全新设备装入两个新机架,为迁移准备布线,并在热插拔之前进行一些检查。

成功迁移的压力很大,因为我们不希望它影响我们的客户。在迁移的第一天晚上-一旦我们使第一个POP的流量变干-我们要求技术人员将所有长途链路移至新加坡DC,并将澳大利亚、法国和美国的所有长途链路移至新设备。经过一些测试,我们把新设备投入生产。迁移的第一步进行得很顺利。

第二天就不那么顺利了,因为这是我们第一次使用基于FPGA服务器的新边境保护系统将我们的新Peering Box投入生产。在我们从对等点删除流量后,流量随后通过第二个POP离开OVHcloud网络。然后,我们通过数据中心供应商的热插拔将光纤移动到新的对等盒。当我们把所有东西都插上新设备后,我们就开始慢慢地恢复生产。我们需要与我们的安全团队一起做这件事,以便检查这个新的边境保护系统是否正常工作,而不是丢弃合法的流量。

在迁移的最后一天,我们的传输团队已经安装了另一项技术。这里的目标是在新加坡数据中心和我们安装这些新设备的POP之间增加容量。隔离两端之间的流量后,我们将暗光纤迁移到新的DWDM光纤系统(Galaxy),以便为数据中心增加400Gbps的容量。由于它是新的,我们在解释如何修复系统中的一些布线问题时遇到了一些麻烦。在全部修复和准备就绪后,我们一个接一个地将4x100Gbps链路投入生产。

在完成了所有这些不同的步骤后,我们分析和解决了一些问题,以便在相同的时间表下使第二次弹出更快。

一旦两个POP都投入生产,我们就会监控它是如何处理流量和DDoS攻击的。我们还联系了我们的亲密客户,以确保没有问题。

这一新的基础设施Smaug显著提高了电源和空间效率,并降低了整体网络设计的复杂性。它还将帮助OVHcloud跟上不断增长的应用程序和服务需求。

展望未来,我们相信Smaug设计的灵活性将帮助OVHcloud利用更快的网络容量,并为未来技术做好准备。

弗洛里安是OVHcloud澳大利亚墨尔本办事处的一名高级网络工程师。作为核心网络团队的成员,他在为拥有30多万台服务器的网络设计构建、故障排除和网络架构咨询方面积累了专业知识。他还致力于通过增加容量、连接新供应商和在全球网络中安装新设备来改善网络。