政府不应使用“集中式”接近追踪技术

2020-05-16 07:09:33

世界各地的公司和政府都在建设和部署数量惊人的系统和应用程序来对抗冠状病毒。许多团体都集中使用蓝牙辅助的接近追踪来通知暴露情况。尽管如此,解决这个问题的方法有很多,而且已经出现了几十个建议。

对它们进行分类的一种方法是基于每个提案对中央权威机构的信任程度。在更“集中”的模型中,单个实体(如卫生组织、政府或公司)被赋予处理和分发用户信息的特殊责任。此实体具有普通用户及其设备没有的信息特权访问权限。另一方面,在“去中心化”模型中,系统不依赖于具有特殊访问权限的中央权威机构。分散的应用程序可以与服务器共享数据,但这些数据对所有人都是可用的-而不仅仅是运行服务器的人。

集中式和分散式模式都可以声称提供了一系列隐私保障。但是集中化的模型都建立在一个危险的假设之上:一个“可信的”权威机构将能够访问大量的敏感数据,并选择不滥用这些数据。正如我们一次又一次地看到的那样,这种信任在与现实的冲突中往往不会幸存下来。精心构建的去中心化模式不太可能损害公民自由。这篇帖子将更详细地介绍这两种方案之间的区别,并权衡每种方案的利弊。

有很多不同的邻近追踪建议可以被认为是“集中式”的,但一般来说,这意味着一个“可信赖”的机构知道普通用户不知道的事情。集中式邻近追踪提议受到许多政府和公共卫生当局的青睐。中央服务器通常代表用户存储私人信息,并决定谁可能受到感染。中央服务器通常可以获知哪些设备与感染者的设备有过联系,并可能将这些设备与真实世界的身份联系起来。

例如,一家名为Pepp-PT的欧洲组织发布了一项名为NTK的提案。在NTK中,中央服务器为每个设备生成私钥,但保留密钥给自己。此私钥用于为每个用户生成一组临时ID。用户从服务器获取他们的临时ID,然后与其他用户交换。当某人的冠状病毒检测呈阳性时,他们会上传他们接触过的其他人的短暂ID集(加上大量元数据)。该机构将这些ID链接到其数据库中其他人的私钥,然后决定是否直接联系这些用户。该系统的设计是为了防止用户将临时ID链接到特定的人,同时允许中央服务器准确地做到这一点。

一些提议,比如Inria的Robert,不厌其烦地化名,也就是说,将用户的真实身份排除在中央数据库之外。这是值得称赞的,但还不够,因为只要稍加努力,就可以将假名ID与真人绑定在一起。包括NTK在内的许多其他集中式提案就不必费心了。新加坡的TraceTogether和澳大利亚的COVIDSafe应用程序甚至要求用户与政府共享他们的电话号码,这样卫生当局就可以直接给他们打电话或发短信。集中式解决方案可能收集的不仅仅是联系人数据:一些提案还让用户上传其联系人的时间和位置。

在“分散的”接近跟踪系统中,中央机构的作用被最小化。同样,在“去中心化”的保护伞下有很多不同的建议。一般来说,分散的模型不信任任何中央参与者,将世界其他地区也看不到的信息提供给他们。去中心化系统中仍然存在隐私风险,但在一个设计良好的方案中,这些风险会大大降低。

目标应该是曝光通知。也就是说,向用户发出他们可能因接近病毒携带者而被感染的自动警报,同时向该用户提供关于如何获得健康服务的建议。目标不应该是自动向政府或任何其他人提供关于个人健康或人与人之间接触的信息。

用户的临时ID应该生成并存储在他们自己的设备上。临时ID可以与用户接触的设备共享,但任何人都不应该有将ID集映射到特定人员的数据库。

当用户得知自己被感染时,正如医生或卫生当局确认的那样,决定是否向系统的共享服务器提供任何信息应该是用户的绝对特权。

当用户报告生病时,系统应该从用户的设备向系统的共享服务器传输其他用户了解其接触风险所需的最小数据量。例如,他们可以共享他们广播的临时ID集,或者他们接触到的ID集,但不能同时共享这两个ID集。

任何单一实体都不应知道可能因接近感染者而暴露的人的身份。这意味着共享服务器不应该能够向有风险的用户“推送”警告;相反,用户的应用程序必须在不暴露其自身状态的情况下从中央服务器“拉取”数据,并使用该数据来确定是否向其用户通知风险。例如,在恶意用户向共享服务器报告他们自己的临时ID的系统中,其他用户的应用程序应该定期从共享服务器中提取一组完整的恶意用户的临时ID,然后将该集合与已经存储在应用程序中的临时ID进行比较,因为该应用程序与其他用户接近。

临时ID不应与真人或彼此链接。任何收集了大量临时ID的人都应该无法分辨它们是否来自同一个人。

去中心化的模型不一定要完全去中心化。例如,关于哪些短暂ID对应于已报告生病的设备的公共数据可以托管在中央数据库中,只要该数据库对每个人都可访问即可。不需要涉及区块链。此外,大多数型号要求用户在报告感染冠状病毒之前获得医生或卫生当局的授权。这种“集中化”是必要的,以防止巨魔充斥着虚假的积极报告。

苹果和谷歌的曝光通知API就是(主要)去中心化系统的一个例子。密钥在单个设备上生成,附近的电话交换临时ID。当用户检测呈阳性时,他们可以将他们的私钥--现在称为“诊断密钥”--上传到可公开访问的数据库。不管数据库是由卫生机构托管还是在点对点网络上托管,只要每个人都可以访问它,接触者跟踪系统就可以有效地运行。

这两种模式都有好处,也有风险。然而,在很大程度上,集中化模式使政府受益,而风险落在用户身上。

集中式模型使任何将自己设置为控制权威的人都可以使用更多的数据,而且他们可能会将这些数据用于远远超过联系人跟踪的用途。该机构可以访问感染者接触过的每个人的详细日志,它可以很容易地使用这些日志来构建详细的社会图,揭示人们是如何相互作用的。这对一些卫生当局很有吸引力,他们希望利用这些工具收集的数据进行流行病学研究或衡量干预措施的影响。但未经资料当事人明确同意,为某一目的收集的个人资料不应用于另一目的(无论多么正当)。一些分散的建议,如DP-3T,包括让用户选择加入共享某些类型的流行病学研究数据的方法。可以对以这种方式共享的数据进行识别和聚合,以将风险降至最低。

更重要的是,近距离跟踪应用程序收集的数据不仅仅是关于COVID的-它实际上是关于人类互动的。一个追踪谁与谁互动的数据库对执法和情报机构来说可能非常有价值。政府可能会用它来追踪谁与持不同政见者互动,雇主可能会用它来追踪谁与工会组织者互动。对于普通的老黑客来说,它也会成为一个有吸引力的目标。不幸的是,历史表明,政府并不是个人数据的最佳管理者。

集中化意味着当局可以使用联系数据直接联系暴露的人。支持者认为,公共卫生部门的通知将比应用程序向用户发出的暴露通知更有效。但这种说法是投机性的。事实上,与集中式系统相比,更多的人可能愿意选择加入分散的近距离跟踪系统。此外,集中式系统的隐私侵犯过高。

即使是在理想的非集中化模式下,也存在某种程度上不可避免的感染风险:当有人报告自己生病时,理论上他们接触过的每个人(以及任何拥有足够蓝牙信标的人)都可以了解到他们生病的事实。这是因为受感染的临时ID列表是公开共享的。任何拥有蓝牙设备的人都可以记录他们看到特定临时ID的时间和地点,当该ID被标记为感染时,他们就可以了解到他们看到该ID的时间和地点。在某些情况下,这可能是足够的信息来确定它属于谁。

一些集中式模型,如Robert,声称可以消除这种风险。在Robert的模型中,用户将他们遇到的ID列表上传到中央机构。如果用户与感染者有过接触,权威机构会告诉他们,您可能已经接触到病毒,但不会告诉他们何时何地。这类似于传统的接触者追踪工作方式,卫生当局采访感染者,然后直接联系他们接触过的人。事实上,罗伯特的模型让了解谁感染了病毒变得不那么方便,但也不是不可能。

自动系统很容易玩。如果一个差劲的演员只在他们靠近某个特定的人时打开蓝牙,他们就能知道他们的目标是否被感染了。如果他们有多个设备,他们可以瞄准多个人。拥有更多技术资源的参与者可以更有效地利用该系统。彻底解决感染揭开面纱的问题是不可能的--用户在选择与任何邻近应用程序分享他们的状态之前,需要了解这一点。同时,很容易避免授予中央机构访问我们数据的特权所涉及的隐私风险。

EFF仍然对接近跟踪应用程序持谨慎态度。目前还不清楚它们会有多大帮助;充其量,它们将补充久经考验的疾病抗击技术,如广泛检测和手动接触者追踪。我们不应该把希望寄托在技术解决方案上。而且,即使是设计最好的应用程序,我们在日常生活中与谁联系过的个人信息也总是存在被滥用的风险。

有一点是明确的:政府和卫生当局不应该求助于自动暴露通知的集中化模式。集中式系统不太可能比分散的替代系统更有效。他们将创建大量新的人类行为数据库,一旦这场危机结束,这些数据库将很难保护,更难销毁。