看看在美国人口普查中使用差异隐私技术的斗争,匿名数据集,但有些则争辩地降低了数据集的质量

2021-05-12 13:15:53

几年前,正如美国人口普查局开始为2020年的算法准备,那就面临了存在的问题。

一位越来越多的学术研究提供了证据,即机器学习系统与大型商业数据集的可用性相结合的是关于美国人的大型商业数据集,可以亲自识别来自机密数据集的信息的人们就像人口普查一样。

涉嫌美国人在保证下依靠美国人致力于分享他们的私人信息,他们将不会亲自识别,决定进行自己的考试。在2016年,它发现,通过在2010年在2010年人口普查之后与商业数据集在2010年人口普查之后结合了相对较少的统计数据,任何人都可以破坏人口普查目前的隐私系统,并重建了关于关于的名称,位置和关键人口特征5200万人。

“如果他们使用更多的统计数据,那可能更糟。如果他们使用了更丰富的商业数据集,那么它可能会更糟,“哈佛大学计算机科学教授Cynthia dwork说。

该发现在2017年普查局历史上最重要的变化之一 - 一个隐私大修,旨在防止局甚至使用百万统计数据的最先进的互联网每10年发布每10年,以将机密数据链接回个人并利用他们的高度个人信息。

但这转移 - 现在在最终阶段 - 并没有按计划进行。

问题:人口普查已转移到“差异隐私”,一种测量 - 基本伪造信息的方法,以添加到数据,以便在数学上确保个体的同时影响数据集的质量。被识别。但许多国家和民权团体认为,这种方法损害了人口普查的质量,使数据无法使用,并且变化不成比例地影响少数群体。

3月10日,阿拉巴马州起诉了局,以防止其实施差异隐私。在东部亚拉巴马州阿拉巴马州中小地区美国地区法院提交的诉讼,拥有16个其他国家。民权团体也提出了警报,担心改变将在国家即将到来的重新分配过程中淡化少数群体投票集团,并使遵守投票权法案较难。

人口普查局没有回应多个评论请求。在阿拉巴马州案件的申请中,主席团认为,坚持在2010年人口普查中使用的隐私议定书将违反其法律要求,以保护调查受访者的机密性,因为随后的机器学习和大数据,以及这种差异隐私是唯一一项履行这项义务的可用方法,同时仍然允许局发布广泛的统计数据。

但是,局势局正在竞赛,以便将数据获取到国家,以便他们可以开始他们的重新分发过程,也有防守者。

许多独立隐私和加密专家都是坚持认为拯救人口普查有必要的差异隐私。

“差异隐私对于确保未来人口普查调查的准确性至关重要,”电子隐私信息中心的高级法律顾问John Davisson表示。 “如果您今天未能保护人口普查调查的隐私,您将明天降低响应,因为人们不会相信其数据的机密性。”

法律要求人口普查局确保其出版的数据不能用于识别个人受访者。几十年来,这是以各种方式完成的,但从1990年人口普查开始通过各种现代技术开始引入噪音。

人口普查做了像农村地区家庭的交换特征一样,这里的家庭数量很小,使得很容易猜到哪些信息属于谁。它还为少数非受访者或容易重新识别的地址分配了统计上可能的特征 - 不到2010年人口普查期间计算的地址的一半。

结果,现代人口普查从未如此简单的调查响应制表。随着这些数字的大问题移动,比如整个州的人口或被雇用的白人人口的人数,准确度降低,因为所迫使局被迫交换和赋予的较小群体一个乡镇的乡镇或男性当地阿拉斯加人在一个处于同性关系的特定地区。

但是,主席团的测试能够使用去识别的人口普查统计和商业数据集以匹配超过三分之一的人口,以据称的机密信息在人口普查调查报警中分享。

因此,主席团选择实施差异隐私,这是一种相对较新的技术,用于防止重新识别。

它是测量用于向数据添加噪声的算法的算法如何实现其目的的统计准确性和机密性的数学方法。与以前的技术不同,委员会使用的差异隐私为人口普查数据的最终用户提供了计算由增加的噪声创建的错误的边缘所必需的信息。

但统计准确程度是关键问题。每次显示数据库的真实统计数据时,它会通过一些小百分比来减少原始数据的整体隐私。并介绍了每次噪声,准确性下降。因此,在实施差异隐私时,数据库所有者必须决定“隐私预算” - 在达到100%的准确性和100%隐私之间的地上。

许多州官员都被警告说,他们将使用的数据绘制国会区,并分配资金不会准确 - 或者至少可能比他们习惯的更少的准确性。这是首次保证三个统计数据的绝对准确性:国家人口总数,每个人口普查块的住房单位数,以及大学宿舍或护理家庭的集团宿舍的数量,输入每个块。

人口普查还计划“后期后期”数据清理差别私有统计,以确保没有令人困惑的数字,如人口普查块与负面群体或人数的群体。

例如,当华盛顿州官员审查了一个早期的演示集,其中包含2010年通过新系统运行的数据 - 它发现了401个人口普查块,整个人口超过85岁,整个人口未满14岁。阿拉巴马州分析相同的数据集显示有13,000个街区,其中有孩子但没有成年人。

在其对普查局的诉讼中,阿拉巴马州和16个提交Amici Curiae简介的其他国家辩称,他们不可能遵守投票权法案,如果他们使用的数据是不准确的数据,那就遵守投票权法案的公平重新划分要求。他们指出,少数民族群体最有可能被移动,并且由于尺寸较小,因此,这些群体中的个人更具可能存在重新识别的风险。

墨西哥美国法律防御教育基金和亚裔美国人在11月发布的示范数据司法中的分析发现,人口普查的制度正在改变群体,使社区在种族线上表现更加均匀,并在减少时增加农村地区的人口它在城市。如果这种数据应该用于重新发行,小组在他们的报告中写道,它可能导致各国绘制应该是多数 - 少数群体(超过50%的少数群体)-A的表决权法案 - 但是事实上并非如此。

“我们目前有严重的担忧,”小组写道。虽然人口普查局已经承诺改善,但“与外部利益攸关方有着透明度,清晰度和参与的透明度,清晰度和参与。”

人口普查局表示,演示数据不代表最终产品,并且它正在基于从各国和其他利益攸关方获得的反馈实施变更。

原子能机构还捍卫了它的方法,理由是在不违反其保护隐私的法律义务的情况下发布人口普查统计,没有其他可行的方式。在阿拉巴马州的法院申请中,主席团表示,它对其选择进行了实证分析,并确定了差异隐私提供了准确性和隐私之间的最佳平衡。

“与2010年人口普查中使用的传统统计披露限制方法,不能防御巨大的云计算能力和复杂的软件图书馆所带来的现代挑战,”局长的首席科学家John Abowd在向法院宣言中写道。并在交换的实践中扩展,以确保隐私将“渲染所产生的数据无法适用于大多数数据用户。”

许多专家认为,对数据的威胁是真实的:一组20个领先的隐私和加密专家告诉法院在阿拉巴马州的案件中,他们认为他们认为人口普查数据的风险非常高。

与此同时,在人口普查局计划发布重新发行所需的状态级数据之前,时间在耗尽。代理官员最近发布了另一套测试的演示数据,并在5月下旬之前接受反馈。

主席团目前计划于6月初完成其差异隐私系统,然后在9月下旬发布数据 - 由于大流行而已推动的截止日期。对于许多州,这意味着在重新划分的截止日期之前,他们将不会有数据。

阿拉巴马州案件的结果可以将另一个扳手扔进作品。双方于5月3日举行初步听证,但截至出版日期,三个法官小组听证案件没有对禁令的案情或要求作出任何裁决。

无论结果如何,如果案件呼吁,它可能会直接前往美国最高法院。

随着技术延伸到培养的所有角落和Blackbox算法中的所有角落,以无法解决的方式重塑我们的生活,标记正在努力使其成为焦点。

我们是一个非营利组织新闻室,为技术报告提供了技术专业知识。我们追求难以击球,数据驱动的分析,并持有强大的机构来账户。

独立新闻对健康的社会至关重要,您的支持对于独立新闻至关重要。 立即支持标记