Datafold正在解决数据工程的混乱

2020-08-05 23:46:56

对于数据工程师来说,这不仅仅是一场反复出现的噩梦--它是日常生活中的现实。十多年来,“数据就是新的石油”这句空话已经过去了,我们仍然在零敲碎打地管理数据,没有适当的系统和控制。数据湖变成了数据海洋,数据仓库变成了…。嗯,不管仓库的大型版本叫什么(我猜是仓库)。数据工程师在现实生活的混乱世界和代码的精确性质之间架起了一座桥梁,他们需要更好的工具来完成他们的工作。

作为TechCrunch的非官方数据工程师,我个人也遇到过许多同样的问题。这就是吸引我进入Datafold的原因。

Datafold是一个全新的数据质量保证管理平台。与软件平台具有QA和持续集成工具以确保代码按预期运行的方式非常相似,Datafold跨数据源集成以确保一个表的架构中的更改不会破坏其他地方的功能。

创始人格莱布·迈赞斯基(Gleb Mezhanskiy)对这些问题有第一手的了解。他在Lyft时是一名数据科学家和数据工程师,后来转变为“专注于数据专业人员生产力”的产品经理。当时的想法是,随着Lyft的扩张,它需要更好的数据管道和工具,才能保持与优步(Uber)和其他公司在其领域的竞争力。

他从Lyft那里学到的经验告诉了Datafold目前的关注点。Mezhanskiy解释说,该平台位于所有数据源及其出口之间的连接中。这里有两个挑战需要解决。首先,“数据是不断变化的,您每天都会获得新的数据,无论是出于业务原因还是因为您的数据源可能被破坏,这些数据的形状都可能非常不同。”其次,“公司用来转换这些数据的旧代码也在快速变化,因为公司正在构建新产品,他们正在重构他们的功能…。可能会发生很多错误。“。

方程式形式:混乱的现实+数据工程中的混乱=不高兴的数据最终用户。

使用Datafold,可以将数据工程师在提取和转换过程中所做的更改与无意更改进行比较。例如,可能以前返回整数的函数现在返回文本字符串,这是工程师意外引入的错误。Datafold将指示可能存在某种问题,并确定发生了什么,而不是等到BI工具失败,经理们发出一堆警报。

这里的关键效率在于,Datafold将数据集的更改-甚至是具有数十亿个条目的数据集-聚合到摘要中,以便数据工程师可以了解甚至是细微的缺陷。我们的目标是,即使在0.1%的情况下出现错误,Datafold也能够识别该问题,并将其摘要提供给数据工程师进行响应。

坦率地说,Datafold正在进入一个和正在处理的数据一样混乱的市场。它位于数据堆栈的关键中间层-它不是用于存储数据的数据湖或数据仓库,也不是Looker、Tableau或其他许多最终用户的BI工具。相反,它是数据工程师管理和监控数据流以确保一致性和质量的众多工具的一部分。

这家初创公司的目标是数据团队中至少有20人的公司-这是数据团队拥有足够规模和资源的最佳地点,他们将关注数据质量。

今天Datafold有三个人,将在本月晚些时候的YC演示日正式亮相。它的终极梦想是让数据工程师再也不用通宵获取页面来解决数据质量问题。如果你去过那里,你就会确切地知道为什么这样的产品很有价值。