为什么族谱网站的数据泄露会让隐私专家感到担忧

2020-08-02 08:19:50

这场奇特的比赛是在一个星期天的清晨开始的。在世界各地,系谱学家发现,他们在GEDMatch上有了无数的新亲戚,GEDMatch是一个以帮助破获金州杀手案而闻名的网站。

新亲戚通常是家谱学家庆祝的理由。但经过仔细检查,经验丰富的用户注意到,一些新亲戚似乎是相当于Twitter机器人或Match.com骗子的DNA;DNA做了真人DNA不应该能做的事情。

其他人似乎是疑似杀人犯和强奸犯,由与执法部门合作的系谱学家上传。用户知道,警方有时会使用该网站试图识别在犯罪现场发现的DNA。但用户发现新的个人资料很奇怪,因为他们也知道,为执法目的制作的个人资料应该隐藏起来,以防止在调查过程中向嫌疑人的亲属通风报信或惹恼他们。然而,真正吸引人们注意的是,所有选择不帮助执法部门的大约100万用户都被迫选择加入。

GedMatch备份,所有套件目前仍切换到警方可访问的https://t.co/nh91rxpIBI pic.twitter.com/rN9wHdqSM9。

-Graham Coop(@Graham_Coop)2020年7月19日。

GEDMatch,一个历史悠久的家族历史网站,包含了大约140万人的基因信息,经历了一次数据泄露。法医公司Verogen的首席执行官布雷特·威廉姆斯(Brett Williams)表示,这些奇怪的匹配不是新上传的,而是两次背靠背黑客攻击的结果,这两次攻击覆盖了现有的用户设置。Verogen是一家法医公司,自去年12月以来一直拥有GEDMatch。

尽管近些年家谱网站的增长速度略有放缓,但警方对它们的使用有所增加。在加州当局于2018年使用GEDMatch确定了长达数十年的金州杀手案的嫌疑人后,全国各地的警察部门开始挖掘他们的悬案档案,希望这项新技术能够解决旧的犯罪案件。

而GEDMatch通常是他们的首选网站。与家谱服务祖先和23andMe不同的是,这两项服务的营销对象是那些刚开始使用DNA来了解自己的人,而GEDMatch则迎合了更高级的研究人员。该网站吸引了警方,因为它允许在其他地方处理的DNA被上传。Verogen与执法部门有着悠久的合作历史,收购GEDMatch进一步巩固了这种合作。

科学家和系谱学家表示,GEDMatch泄露事件-向执法官员暴露了100多万份额外的个人资料-提供了一个重要的窗口,让我们了解当负责存储遗传信息的人未能采取必要的预防措施时,会出现什么问题。

威廉姆斯在接受采访时说,第一次入侵发生在7月19日早些时候。他说,在关闭网站后,他的团队“掩盖了漏洞”,并让它重新上线,但只是短暂的。他说:“周一,我们再次关闭了该网站,因为很明显,黑客们正在再次尝试。”

这一次,该网站保持了近一周的停机状态。威廉姆斯说,“我们非常谨慎,因为我们不想再次陷入同样的境地。”

威廉姆斯说,他已经雇佣了一个外部安全团队,并联系了联邦调查局(FBI),看看该机构是否会进行调查。FBI没有回复记者的置评请求。

英国系谱学家黛比·肯内特(Debbie Kennett)说,当网站的设置恢复时,一切都远未解决。她在自己的博客上写道了这次入侵事件。她说:我们终生都被自己的DNA束缚住了。她在一次采访中说:“一旦发布,你就不能再更改电子邮件地址了。”她补充说,由于其相互关联的性质,当任何一个人的基因信息被暴露时,暴露的DNA也可能会潜在地影响他们的家庭成员。

在去年发表的一篇论文中,南加州大学(University Of Southern California)生物科学教授迈克尔·埃奇(Michael Edge)和其他研究人员警告几个家谱网站,他们很容易受到数据泄露的影响。

“当然,黑客攻击发生在很多公司,甚至是非常重视安全的实体,”他说。“与此同时,GEDMatch和最终Verogen对我们论文的回应并没有激发他们认真对待它的信心。”他补充说,其他家谱网站似乎更愿意接受研究人员关于提高安全性的建议。

对许多人来说,GEDMatch上出现的虚假用户和入侵事件本身一样令人担忧。系谱学家知道他们不能信任姓名或电子邮件。他们还知道,用户可以很容易地上传其他人的基因档案。但这起入侵事件暴露了幕后被隐私设置隐藏的各种人的个人资料,这些人甚至都不是真的。

家谱研究公司DNA Geek的生物学家利亚·拉金(Leah Larkin)说,这些匹配的人并不是真正的亲戚,这表明他们的DNA太好了,以至于不可能是真的。为许多客户和亲戚管理档案的人反复发现,这些虚假用户不知何故在无关的档案中显示为近亲。他们可见的血统信息强化了匹配是不可能的,并暗示出于某种原因,伪造的个人资料被设计成欺骗网站的搜索算法。

在Edge博士的论文中,他警告说,有可能创建虚假的个人资料来识别带有与阿尔茨海默氏症和其他疾病相关的基因变异的人。

拉金博士说,“如果某件事只是一个书呆子家谱学家在胡闹,那就没什么好担心的。”但她说,如果用户像Edge博士警告的那样,试图找到都有特定基因突变或特征的人,这就成了一个问题。她说,这些信息可能会被保险公司、制药公司或其他人滥用。

这起泄密事件还强化了系谱学家多年来一直在说的话:将家谱和执法混为一谈是混乱的,即使你试图划清界限。直到两年前,执法部门用于调查的主要DNA数据库还由联邦调查局(FBI)和警方维护。随着2018年金州杀手案的发生,这种情况发生了变化。

随着警方争先恐后地重新调查悬案,GEDMatch当时是由两名家族历史爱好者运营的,作为一种激情项目,它试图服务于两个受众:只是想追踪自己的家谱的系谱学家,以及想知道其中一个分支机构是否藏匿着谋杀或强奸犯的执法官员。在一片反弹中,GEDMatch在2019年5月改变了政策,只有明确选择帮助执法的用户才会出现在警方的搜查中。尽管如此,关于当局如何使用GEDMatch和其他家谱数据库的监管很少,所以很大程度上是由公司和他们的用户来监督自己。

对于一些用户来说,让他们的个人资料保持隐私的原因是哲学上的。即使帮助执法可能意味着帮助抓获凶手,他们也不希望自己的基因信息被用来指控自己的亲属。其他人,如来自纽约州亨廷顿的家谱学家卡罗琳·尼·洛克伦(Carolynn Ni Lochlainn),对他们的个人资料保密,因为他们担心这些数据会被不正当地用来逮捕无辜的人。

“我和很多黑人客户和表亲一起工作,我对他们面临的不可原谅的风险感到最愤怒,”妮·洛克伦女士说。

Colleen Fitzpatrick是Identifinders International的创始人,该公司应用法医系谱技术来识别无人认领的遗体和犯罪嫌疑人,负责监督一个严重依赖GEDMatch的团队。

她的团队受到的影响与系谱学家的客户不同。他们上传了犯罪现场和被母亲遗弃的身份不明的婴儿的DNA。因为他们已经勾选了执法方框,这些个人资料不应该出现在他们亲属的搜索中。在短暂的时间窗口内,“整个数据库,他们都能看到我们,”她说。

她说,考虑到涉及的时间很短,任何与执法部门合作的人都不太可能利用这一漏洞来违背亲属的意愿获得匹配。她说:“我们要利用的并不是这么宏伟的消息。”

尽管如此,不可否认的是,这次入侵破坏了所有人的信任,她说。“我认为Verogen需要升级它的游戏,”她说。