Smaug，全新的OVHcloud骨干网络基础设施

2020-08-13 19:37:16

OVHcloud网络有34个POP(入网点)，分布在欧洲、北美和亚太地区。与其他提供商相比，OVHcloud网络的全球容量约为21Tbps，可以处理更多的流量。

在OVHcloud，网络流量不断增长，以满足数百万互联网用户的需求，这些用户使用我们遍布全球的31个数据中心。

在过去的几年中，OVHcloud一直致力于改善我们全球主干网络的基础设施。

经过近两年的研发，OVHcloud网络团队已经拿出了一个全新的基础设施。每个数据中心都连接到多个POP(入网点)。POP与各种其他OVHcloud数据中心共享流量，并与不同的提供商(称为对等点)交换流量。

当前的体系结构在内部被称为“粘性路由器”，基于用于路由的路由器和充当电源板角色的交换机。几年来，它一直工作得很好(而且成本很低)，但就带宽而言，该方法最终达到了极限。我们需要找到并设计另一个能够处理日益增长的流量的系统。我们的要求很简单；我们需要一个低成本、低功耗、高效且可扩展的基础设施。

自Octave Klaba创建以来，为我们的全球客户提供尽可能好的连接一直是公司的动力。要做到这一点，我们希望尽可能连接到当地提供商，需要10Gbps或100Gbps的多个端口。

端口容量：必须基于100Gbps和400Gbps端口，并具有良好的成本效益。这将有助于消除网络中的任何瓶颈。它还需要为那些没有为100Gbps端口做好准备的提供商维护10Gbps链路。

易于升级：在容量方面，新架构需要易于升级。这在一定程度上是为了公司的发展，但也是为了在POP需要网络维护时保持可用性。

电力：团队需要找到最好的硬件来最大限度地提高电力消耗效率；特别是在像新加坡这样的国家，那里的电力消耗很贵。

安全性：一个关键要求是与我们的安全团队合作，找到保护网络免受威胁(大规模DDoS攻击)的最佳解决方案。

经过近一年的研究和测试，设计团队提出了一个全新的架构，该架构具有可伸缩性、高能效、易于安装和健壮等特点。新建筑被命名为Smaug，以“霍比特人中的龙”命名。

为了具有适应性，该架构有多个容量选项，具体取决于POP的大小。这是因为在不同的数据中心交换的流量不同。每个容量选项都有自己的特殊性，目标是不会出现瓶颈。

Smaug是一个“脊梁和树叶”的基础设施。这意味着“脊椎”(称为SuperBackbone的SBB)聚合树叶并连接每个数据中心。“叶”设备(PeeringBox称为PB)用于连接提供商以及xDSL设备或OVHcloud Connect等内部服务。

Smaug基础设施还提供了另一种连接数据中心的方法，该数据中心至少有两个POP，且都位于不同的位置。例如，在新加坡，我们的数据中心连接到两个POP，两个POP之间的距离超过30公里-这符合两个POP不使用相同电源的规则。

为了确保冗余，两个POP需要以巨大的容量相互连接-100Gbps或400Gbps，具体取决于POP。传输团队还参与了一种名为“银河”的新基础设施的开发。Galaxy基于不同的构造函数-结合了易于部署、可扩展的运营模型，能耗更低。

枝叶的作用非常简单，类似于数据中心机架的顶部。它具有通向主干的巨大上行链路容量，并具有连接BGP对等点的配置；例如传输提供商、专用互联(PNI)和互联网交换。

长途链路：它具有基于100Gbps的链路连接，指向数据中心和POP。

路由：它拥有完整的路由表，以便选择通往OVHcloud数据中心或外部网络的最佳路径。

保护：*vac团队通过开发新的保护工具参与其中(更多信息：https://www.ovh.com/blog/using-fpgas-in-an-agile-development-workflow/))，以帮助保护整个OVHcloud网络免受DDoS攻击。

在设计团队和管理层确定它是OVHcloud网络的最佳架构后，我们开始测试不同的品牌，前提是所有功能都实现正确。在实验室完成所有测试后，我们确信解决方案是可行的，然后开始在新加坡部署基础设施。就交通增长而言，该地区是最重要的地区之一。这也更容易，因为我们已经有了用于数据中心和POP之间链路的暗光纤。

一月份，我们订购了所有设备和收发器，然后准备了迁移计划，以便将整个部署安排在三月底。2月底，我们准备了配置并测试了全新设备。一切就绪后，我们就把它们都送到新加坡老爷子那里去了。

一开始我们计划在2020年3月中旬进行这次迁移，我们本来应该把我们的技术人员从法国派到新加坡，但由于新冠肺炎的原因，我们不得不改变了计划。我们不得不找到另一个解决方案，并请我们在新加坡数据中心工作的当地技术人员来做这项工作。由于大流行需要进行新的重组，移民计划变得更加复杂。

经过管理层、网络团队和新加坡OVHcloud技术人员的长时间讨论，决定在4月初做第一个POP的迁移，在4月底做第二个POP的迁移。迁移开始于将全新设备装入两个新机架，为迁移准备布线，并在热插拔之前进行一些检查。

成功迁移的压力很大，因为我们不希望它影响我们的客户。在迁移的第一天晚上-一旦我们使第一个POP的流量变干-我们要求技术人员将所有长途链路移至新加坡DC，并将澳大利亚、法国和美国的所有长途链路移至新设备。经过一些测试，我们把新设备投入生产。迁移的第一步进行得很顺利。

第二天就不那么顺利了，因为这是我们第一次使用基于FPGA服务器的新边境保护系统将我们的新Peering Box投入生产。在我们从对等点删除流量后，流量随后通过第二个POP离开OVHcloud网络。然后，我们通过数据中心供应商的热插拔将光纤移动到新的对等盒。当我们把所有东西都插上新设备后，我们就开始慢慢地恢复生产。我们需要与我们的安全团队一起做这件事，以便检查这个新的边境保护系统是否正常工作，而不是丢弃合法的流量。

在迁移的最后一天，我们的传输团队已经安装了另一项技术。这里的目标是在新加坡数据中心和我们安装这些新设备的POP之间增加容量。隔离两端之间的流量后，我们将暗光纤迁移到新的DWDM光纤系统(Galaxy)，以便为数据中心增加400Gbps的容量。由于它是新的，我们在解释如何修复系统中的一些布线问题时遇到了一些麻烦。在全部修复和准备就绪后，我们一个接一个地将4x100Gbps链路投入生产。

在完成了所有这些不同的步骤后，我们分析和解决了一些问题，以便在相同的时间表下使第二次弹出更快。

一旦两个POP都投入生产，我们就会监控它是如何处理流量和DDoS攻击的。我们还联系了我们的亲密客户，以确保没有问题。

这一新的基础设施Smaug显著提高了电源和空间效率，并降低了整体网络设计的复杂性。它还将帮助OVHcloud跟上不断增长的应用程序和服务需求。

展望未来，我们相信Smaug设计的灵活性将帮助OVHcloud利用更快的网络容量，并为未来技术做好准备。

弗洛里安是OVHcloud澳大利亚墨尔本办事处的一名高级网络工程师。作为核心网络团队的成员，他在为拥有30多万台服务器的网络设计构建、故障排除和网络架构咨询方面积累了专业知识。他还致力于通过增加容量、连接新供应商和在全球网络中安装新设备来改善网络。

https://www.ovh.com/blog/smaug-the-brand-new-ovhcloud-backbone-network-infrastructure/

tags users