差异化隐私-MS Research+哈佛开源的工具

2020-07-02 20:17:10

数据不仅驱动着我们的现代世界,而且蕴藏着巨大的潜力。数据对于形成创造性的解决方案来应对关键挑战是必要的,这些挑战包括气候变化、恐怖主义、收入和种族不平等,以及新冠肺炎。令人担忧的是,你越深入挖掘这些数据,敏感的个人信息就越有可能被泄露。

为了克服这个问题,我们开发并发布了第一个用于差异隐私的开源平台。这项技术由微软的研究人员与哈佛大学领导的OpenDP倡议合作开创,允许研究人员在全面分析数据集的同时保护隐私。作为这一努力的一部分,我们将通过OpenDP向世界授予微软差异隐私专利下的免版税许可,鼓励广泛使用该平台,并允许任何人开始使用该平台,使其数据集广泛供世界各地的其他人使用。

哈佛大学CS教授、微软杰出科学家辛西娅·德沃克(Cynthia Dwork)说:“差异隐私是今天具有里程碑意义的核心,它是微软研究院在15年前发明的。在变革性研究的生命周期中,这个领域还很年轻。我很高兴看到这个平台将使什么成为可能。“。

差异隐私通过复杂的数学框架实现这一点,该框架利用两种机制来保护数据集中的个人身份或机密信息:

向每个结果添加少量的统计“噪声”,以掩盖单个数据点的贡献。这种噪音可以保护个人隐私,同时不会显著影响分析师和研究人员提取答案的准确性。

从每个查询中揭示的信息量被计算并从总体隐私预算中扣除,以在个人隐私可能受到损害时停止附加查询。

通过这些机制,差异隐私通过阻止个人身份信息完全出现在数据分析中来保护个人身份信息。它进一步掩盖了个人的贡献,基本上不可能推断出任何特定于任何特定人的信息,包括数据集是否使用了该个人的信息。因此,数据计算(包括分析和机器学习)的输出不会泄露底层数据的私人信息,这为研究人员以前所未有的方式和规模利用和共享大量数据打开了大门。

首席隐私官、公司副总裁兼全球隐私和监管事务副总法律顾问朱莉·布里尔(Julie Brill)表示:“在我们使用数据时,我们需要隐私增强技术来赚取和维持信任。在来自世界各地的开发人员和研究人员的贡献下,创建一个差异隐私的开源平台,对于成熟这项重要技术并使其得到广泛使用至关重要,”首席隐私官、公司副总裁兼全球隐私和监管事务副总法律顾问朱莉·布里尔(Julie Brill)说。

在过去的一年里,微软和哈佛致力于构建一个开放的解决方案,利用差异隐私保护数据隐私,同时使跨学科的研究人员能够获得具有迅速推进人类知识潜力的洞察力。

“我们与微软在开发开放源码软件和跨越产业界与学术界的鸿沟方面的伙伴关系卓有成效。我们正在共同开发的差异隐私软件将使政府、私营公司和其他组织能够安全地与寻求创造公益、保护个人隐私和确保统计有效性的学者共享数据,“Weatherhead大学教授、哈佛大学定量社会科学研究所所长Gary King说。

由于该平台是开源的,专家可以直接验证实现,而研究人员和其他在某个领域工作的人可以在项目上进行协作,同时进行共同开发。其结果是,我们将能够更快地迭代以使技术成熟。只有通过大规模的协作,我们才能将之前没有连接甚至不相关的数据集组合成广泛的库存,这些库存可以被AI分析,以进一步释放数据的力量。

大型且开放的数据集具有难以想象的潜力。差异化隐私平台为我们贡献、协作和利用这些数据铺平了道路,我们需要您的帮助来增长和分析世界上的集体数据存储库。由此产生的洞察力将产生巨大和持久的影响,并将开辟新的研究途径,使我们能够为我们目前面临的一些最紧迫的问题开发创造性的解决方案。

差分隐私平台及其算法现在可以在GitHub上获得,供世界各地的开发人员、研究人员、学者和公司用于测试、构建和支持。我们欢迎并期待对这一历史性项目的反馈。