Mozilla研究:浏览历史足够独特,足以识别用户

2020-09-02 11:17:11

2012年的研究发现,97%访问此测试站点的用户在其浏览历史中都有唯一的站点列表,这使得浏览器历史成为可靠的用户指纹载体。

此外,当用户被要求再次访问测试网站时,研究人员表示,他们能够根据第一次访问时的浏览历史档案重新识别用户。

当研究人员查看用户最受欢迎的50个域名的浏览历史数据集时,准确率为38%,当他们分析包含500个域名的数据集时,准确率为70%。

但去年,Mozilla的研究人员想要重新评估浏览历史是否仍然是一个有效的指纹载体,以及2012年的研究是否仍然成立。

这项新的实验在2019年7月16日至8月13日之间进行,当时Mozilla提示Firefox用户参与这项实验。

Mozilla研究人员表示,超过5.2万名用户同意参与,并同意提供匿名浏览数据。

然而,这一次,由于数据是从Firefox本身收集的,而不是通过执行耗时很长的CSS测试的网页收集的,因此数据更加准确和可靠。此外,Mozilla研究人员收集的数据也与今天的在线分析公司收集的用户数据类型大致相同--无论是通过数据合作、移动应用、在线广告还是其他机制。

就像以前一样,数据收集分两个阶段进行,在两周内,用户在第一周分享浏览历史,然后在第二周再次分享,这样Mozilla的研究人员就可以看看他们是否可以重新识别用户。

Mozilla团队表示,他们总共收集了66万个独特域名的3500万网站访问量的数据。而这种对更高质量数据的访问立即反映在研究的结果中。

Mozilla说,他们为这项研究收集的99%的浏览档案对每个用户都是独一无二的。

这种独特性使得Mozilla研究人员可以在研究的第二周轻松地重新识别用户。

精确度也优于2012年的研究,Mozilla声称,对于包含50个用户浏览历史域名的数据集,它的可重识率接近50%。当Mozilla研究人员将浏览历史数据集扩展到150个域时,这种可重识率增长到了80%以上。

后者的发现表明,分析公司和在线广告商不需要庞大的浏览历史数据列表来跟踪用户,每个用户的浏览习惯和他们最喜欢的网站最终都会泄露这些数据,即使数据是匿名的,URL也会被截断,删除用户名,只留下核心域名。