与Etsy首席技术官Mike Fisher就将Etsy的基础设施迁移到Google Cloud、处理大流行期间需求的巨大激增、改进搜索等问题进行了问答

2020-09-30 18:45:16

小企业复苏首席技术官迈克·费舍尔(Mike Fisher)介绍了扩大规模、修复搜索以及Etsy是如何为假日季节做准备的。

当疾控中心开始建议人们戴面罩时,群众在Etsy上搜索口罩。只有一个问题。

如果你在Etsy或任何其他公共电商商店上搜索,结果都是洁面面膜,Etsy首席技术官迈克·费舍尔告诉Protocol,因为这就是人们使用这个词的意思。但这不是今年春天人们想要的。所以Etsy不得不重新训练它的算法。费舍尔说:我们让人类识别他们正在寻找的真正的面具,并将其输入到算法中。然后他们才能辨别出人们真正的意思。

随着大量买家和卖家开始使用该平台,修复搜索只是Etsy必须处理的众多问题之一。而且压力还远未结束:费舍尔现在必须为假期季节做准备。今年的情况大不相同。通常情况下,这是非常可预测的,他说。今年,这一切都悬而未决。

在与Protocol的一次对话中,费舍尔描述了Etsy是如何为此做准备的,使用云计算的好处,以及COVID如何改变了公司的路线图。

在疫情爆发之初,所有电子商务网站的需求都出现了巨大的激增。Etsy是否因此经历了技术挑战?

当我第一次来到(2017年)Etsy时,我们还在数据中心运行。让我回到公司的是我们的首席执行官乔希·西尔弗曼(Josh Silverman)提出的一个问题:我们在基础设施上的支出是否太多,而在产品开发上的支出是否不足?当我看着这一点时,我说是的。根据我的分析,我们花得太多了,因为我们在维护我们自己的服务器和我们自己的可观察性堆栈,以及所有的东西。

原因是,当Etsy在早期做一些这样的事情时,提供的是云服务。没有能力把你的一大堆东西外包出去。快进12、13年后,有一些公司提供这些服务。所以我说,我们应该做的一件事就是走出数据中心,进入云计算。我称之为向上移动:我们可以外包基础设施和服务,我们的工程师可以更接近客户。开始了我们的旅程。我们做了一个全面的RFP,我们研究了所有的云提供商,最终我们选择了Google作为我们的提供商。

我们在今年2月完成了迁徙。你找不到比这更好的时机了。30天后,我们又陷入了这场大流行。交通流量激增,比我们在假日季节看到的还要多。我们在云上,我们可以自动缩放。我们可以扩大规模,我们有基础设施。

老实说,要不是我们在云端,我们不可能做到这一点。我们不可能买到硬件的。通常,在云之前的日子里,我们会从7月份开始订购硬件,我们会订购数百万美元的硬件,因为订购这些硬件需要这么长的时间,进入数据中心,装入机架,然后为假日周,网络周做好所有准备。这在一夜之间就发生了,如果不是在云上,我们永远不可能做到这一点。我们在第二季度售出了2900多万个口罩。在某个时间点上,每秒有11次口罩搜索。我们可以通过我们的搜索和我们的基础设施来处理这一点,因为我们是在云上。

在大流行期间,从技术角度看,有没有什么事情是你必须做或考虑的?

当面膜最初问世时,如果你在Etsy或任何其他公共电商商店上搜索,结果都会出现洁面面膜之类的东西,因为这就是人们使用这个词的目的。幸运的是,我们多年来一直致力于改进我们所说的语义搜索,并理解人们打字时的意思。

一个活动开始前的例子是:我们会考虑像礼服和礼服这样的东西,如果你放入礼服,你显然想要有礼服的房源,反之亦然。因此,我们多年来一直致力于使用最先进的图形技术和机器学习人工智能,以便能够推动这一技术,并能够缩小语义鸿沟。

所以当口罩第一次出现的时候,除了清洁口罩,你什么也找不到。但是我们的算法可以很快地重新训练。因此,当这种情况发生时,我们让算法得到重新训练--它在几小时或几天内发生。然后突然之间,他们真正想要的是出现。

为了帮助获取数据,我们让人类识别他们正在寻找的真正的口罩,然后我们将其输入到算法中,然后他们就能够识别人们所说的这些口罩的真正意思。我们在一开始就在争先恐后地实现这一点,但因为我们拥有所有这些令人惊叹的基础设施,我们才能够做到这一点。

你有没有考虑过安全功能,以防止人们购买声称经过医学认证的东西?

Etsy上出售的面膜和消毒液不是医疗级的,所以我们的列表不允许包括任何医疗或健康声明。我们积极沟通和教育卖家,以确保他们的挂牌商品符合我们的政策。我们谈到了我们所做的一些技术工作,但其中有很大一部分是我们的会员服务和团队,帮助了卖家。

另一个大问题是我们给卖家打了个电话,我们发了电子邮件…。也就是说,需求量很大,我们必须着手做这件事。我们之所以这样做,是因为在当时,医用口罩和N95的个人防护用品短缺非常严重,我们希望卖家能够为每天四处走动的普通人提供这些服务。我们想要[医用口罩]给医护人员。我们向他们发出号召,让他们有组织地、或有动力地去做这件事。

但问题是,我们可能会用销量压倒卖家。就像我提到的,每秒11次搜索。而且其中很多都是个人卖家,所以他们正在餐厅的桌子上缝纫。因此,我们必须弄清楚,我们如何帮助他们扩大业务规模,如何确保我们不会让他们的销售额不堪重负。

这是一个组合。在技术方面,我们可以帮助他们轮换搜索结果,这样就不会有任何卖家在10分钟内不知所措。在会员服务方面,我们正在联系卖家,帮助他们弄清楚如何扩大业务规模,如何预测他们真正可以生产多少面膜,这样他们就不会承诺过高和交付不足。当他们已经有足够的订单可以处理一两天的时候,他们怎么能轮流进进出出他们的商店呢?同时教育他们,关于医疗或健康声明,你可以说些什么,不能说些什么。正是这种技术和人力的结合,将所有的部件连接在一起,使其发挥作用。

乔希在内部指出,现在是重新审视我们的产品路线图的时候了。我们这样做了,我认为他的观点是,如果我们正在做的大多数事情都不是正确的,我会感到惊讶,但如果我们没有想要在此基础上做出改变的东西,我也会感到惊讶。我认为这种观点是正确的。我们的市场表现如此之好,并在此期间帮助了这么多人,部分原因是我们多年来一直在努力构建正确的功能。

我提到的搜索就是其中之一:我们多年来一直在努力让搜索变得越来越好。通过这样做,通过确保结账流程和列表以及所有这些事情,这些年来越来越好,我们能够处理这个问题。当人们来的时候,他们喜欢这种体验。因此,搜索和发现是我们多年来一直致力于的工作,而且还在继续。

一些较新的东西:我们意识到人们想要更多的清单。他们希望能够创建更多列表和收藏夹。所以这是我们最近一直在做的事情。最近推出的另一个很酷的功能是列出视频,这在一定程度上是由新的卖家带着想法和要求进来的。以前您可以将图片添加到您的物品中,但现在您可以拍摄您制作的产品的视频。这可能是某个穿衬衫的人,也可能是一段围绕他们旋转的视频。另一个是…。我认为这相当酷:我们有能力做增强现实。所以你可以把这张照片拿在你的移动设备上,把它举到墙上,看看照片会是什么样子,根据大小和材料。

其中一些已经在路线图上,一些已经加速,以帮助满足对这些产品的新需求。

现在正是假日季节。管道中的产品,我们正在收尾,以确保我们能在假日季节及时完成。当然还有准备工作,因为我们的需求已经翻了一番。

通常情况下,这是非常可预测的--我们实际上可以根据7月和8月的客流量,说我们几乎完全知道节日期间会是什么样子,因为我们已经这样做了很多年。今年,这一切都悬而未决。这可能会在它可能是什么或它的上限之间相差很多,很多个百分点[百分点]。因此,我们已经与谷歌就这一问题进行了大量的计划会议。这是我现在脑海中的大事:我们如何继续扩大规模,让所有的卖家和买家都有一个美好的假期。

你是怎么想的?您是只为每一种情况做计划,还是尝试改进您的模型?

其中一部分只是建模,所以我们调高了统计数据。我们说,比如说,如果商店不能进行黑色星期五的促销活动,因为他们不想让人进店,或者他们只允许有限数量的人进店,那会给电子商务带来什么呢?我认为,在这种环境下,这是一种非常现实的可能性,因此,这是我们正在考虑的一件事,它会推动我们达到数百个百分点的增长上限。所以这是单向的。

我们正在考虑的另一件事是会出什么问题。我们以事后检查而闻名:在事故或问题发生后,我们非常善于找出根本原因,并如何防止再次发生这种情况。我们实际上也使用了一种叫做“死前”的技术。我们进行集思广益,然后说,什么可能会失败?现在我们还有几周和几个月的时间,那么可能的失败情况是什么,我们今天如何减轻这种情况呢?

我们一直在进行这样的会议,我们与我们的团队讨论如果我们的基础设施的这一特定部分出现故障或出现问题怎么办-我们如何才能保持网站的运行?临终前是一个有趣的想法,我们在过去的几年里一直在研究它,随着我们进入假期,它在这个季节得到了广泛的使用。

我们的系统很庞大。它的支持是如此之大,不仅是美元和买家的数量,而且是全球性的。所以像翻译这样的事情:当你把列表放进去时,我们希望其他国家的人[用其他语言]看到这一点。翻译是我们关心的事情,我们必须确保这些翻译处理得足够快,而且我们已经有了这样做的基础设施和服务。

我们的支付基础设施,我们在过去的几年里一直在加强。今年我们做了很大的改变。我们有工程师所说的帮助处理支付的状态机,当我们经历去年的假日季时,我们知道这是我们未来几年要解决的路线图上的问题,因为我们可以从通过它处理支付的需求来判断。当我们在3月和4月看到面具的峰值时,我们加速了这项工作,并在今年春天做到了这一点:我们对那个状态机进行了改进,以便我们可以进行处理。

这些都是我们正在关注的事情:(因为)我们建造的所有基础设施,下一个规模点是什么。这就是我们对规模的看法,这是一种阶梯函数式的东西,它着眼于所有这些列表、翻译处理或重新编制索引-我们每天都会有成千上万的列表添加,它们必须重新编制索引-所有这些都需要时间,但我们如何确保它在达到一定水平时不会倒下?

系统之所以如此复杂,是因为我们什么都做:我们有自己的广告网络,我们有自己的支付处理,我们有自己的搜索。在卖方,我们必须有工具让他们不仅可以看到他们的销售额,还可以发送消息-我们有完整的消息传递基础设施。然后是我们的航运基础设施,以实现目标。这就是我们要看的所有这些小东西。

我们做的另一个练习被称为游戏日,在这一天,我们会对系统的某些部分施加人为需求,看看它能走多远才能倒下。我们正在做所有这些作品的这类工作,只是为了确保网络周的到来,一切都为此做好了准备。