不可归因性的“Db8151dd”数据泄露事件

2020-05-15 16:51:27

我没有写这篇博文是因为它留下了很多我们应该能够回答的问题。它是关于一起数据泄露事件,其中有近90 GB的个人信息,涉及数千万条记录-包括我的记录。以下是我所知道的:

早在2月份,Dehash就向我提供了大量的数据,这些数据通过一个可公开访问的Elasticsearch实例暴露在一家主要的云提供商上。它总共包含103,150,616行,前30行如下所示:

以";db8151dd&34;开头的全局唯一标识符在前几行中占很大比重,因此命名为I';。我不得不给它起这个名字,因为坦率地说,我完全不知道它是从哪里来的,我也不知道其他任何我参与过这件事的人。

我正在努力追查有人发给我的“大规模”入侵的来源。看起来非常像一个数据聚合器,但我不能给它归类。来自云托管IP所以没有线索。我自己的数据在那里,有没有人看到任何线索表明消息来源?https://t.co/GHBoWN93Fy。

-特洛伊·亨特(@troyHunt)2020年2月23日。

我嵌入了我自己的记录,你可以在Pastebin上更详细地阅读:

它的大部分数据都是从公共来源抓取的,尽管有一些关键的不同之处。首先,我的电话号码通常不会曝光,而且是完整的。是的,有很多地方(显然)都有它,但这不是从,比如说,LinkedIn的公共页面上刮来的。接下来,我的记录紧跟在我过去接触过的其他人的旁边,就好像数据源理解这种关联一样。我发现这非常不寻常,因为它不是我希望看到的与之有很强联系的人,我也看不到任何其他类似的人。但这是其中的下一类数据,这让这件事变得特别有趣,我只想在这里引用几个片段:

由安迪[编辑后的姓氏]推荐。2007年10月2日,安排木匠学徒德文(编辑后的姓氏)更换温哥华[编辑后的街道地址]的浴室梳妆台。

感觉就像一个客户关系管理系统。这些是像你这样的人的参与记录,你可以捕捉它们,以便日后回拨谁在哪里见过面,以及他们做了什么。它也不只是简单的日常业务互动,还有这个:

但也有一堆法律摘要,例如,关于美国的案件结案摘要V[编辑]和10/3/11在法庭上拘留HRG 20分钟,外加与[编辑]&34;的旅行平分的旅行。[编辑]";[编辑]";和#34;10/3/11拘留HRG在法庭上的拘留时间为20分钟,外加与[编辑]&34;

-特洛伊·亨特(@troyHunt)2020年2月23日。

但是没有任何地方-绝对没有任何地方-没有任何迹象表明数据是从哪里来的。我能做到的最接近这一点的,是一次又一次出现的以下评论:

此联系信息已从Exchange同步。如果您要更改联系信息,请打开OWA并在那里进行更改。

EverContact确实联系了我们,我们私下讨论了入侵事件,但这并没有让我们更接近消息来源。我与多名信息安全记者(其中一名自己的个人数据也被泄露)进行了沟通,但我们仍然没有取得任何进展。在过去的3个月里,我一次又一次地回想起这起事件,用新的眼光看着数据,每一次都一无所获。就在你问之前,没有,云提供商不会透露哪些客户拥有资产,但他们会联系那些拥有不安全资产的客户。

今天是这次违规调查的终点,我刚刚将所有22,802,117个电子邮件地址加载到了“我是否已被支付”中。“为什么要加载它呢?因为每次我问我是否应该添加来自不明来源的数据时,答案都是压倒性的";是";:

如果我有一个大量的垃圾邮件列表,里面全是卖给垃圾邮件发送者的个人数据,我应该把它加载到@haveibeenpwned中吗?

-特洛伊·亨特(@troyHunt)2016年11月15日。

所以,给我记下另一次泄露我个人信息的记录。你和我对此无能为力,除了比以往任何时候都更清楚地意识到,我们的个人信息在没有我们同意的情况下传播了多远,实际上,在我们不知情的情况下,我们的个人信息传播到了什么程度。而且,也许最令人担忧的是,这远不是我最后一次写这样的博客文章。