Bloomfilter被揭穿：用Coq消解30年的数学

2020-07-25 13:11:01

现代网络浏览器(如Firefox或Chrome)有一个相当不错的功能，如果用户碰巧导航到恶意url，浏览器会自动警告用户：

虽然概念上很简单，但这个功能实际上需要比人们预期的更多的工程工作-特别是，以实际的方式跟踪已知的恶意URL集被证明是多么困难。

这是因为，一方面，试图存储所有已知恶意URL的数据库(记住，可能包含数百万个条目)对于大多数用户来说实际上是不可行的。

相反，将用户访问的每个URL发送到某个外部服务，在那里可能会被邪恶的第三方(即Google)记录和数据挖掘，这可能会让大多数用户感到不舒服。

事实证明，浏览器实际上是通过一种相当有趣的折衷方式来实现此功能的。

使用称为Bloomfilter的概率数据结构，浏览器在本地维护已知恶意URL集的近似表示。通过查询这个节省空间的本地集合，浏览器将只发送一小部分实际上很可能是恶意的URL。

使用Bloomfilter充当查询外部数据库的本地代理。

这种每天保护数百万用户隐私的代理技术依赖于Bloomfilter的两个关键属性：

这说明如果对Bloomfilter中的URL的查询返回否定，则可以保证所查询的项不存在于恶意URL集合中-即，Bloomfilter保证对所有已知的恶意URL返回肯定的结果。

此属性规定，对于不在恶意URL集中的任何URL，Bloomfilter查询返回正结果的可能性应该非常低-从而将不必要的侵犯用户隐私的次数降至最低。

这个机制工作得很好，布隆过滤器的保证似乎非常适合这个特殊的任务，但是它有一个小问题，那就是：

事实上，事实证明，布隆过滤器的行为实际上是长达30年的数学争论的主题，需要多次修正，甚至需要修正这些修正。

考虑到这段错误的历史，我们对Bloomfilter的理解真的有把握吗？

嗯，别害怕，我写这篇文章是想告诉你，我们最近刚刚使用Coq产生了第一个通过认证的Bloomfilter假阳性率证明，终于结束了这一错误传奇，让无数人每天都依赖的机制恢复了确定性(请原谅双关语1)。

在这篇文章的其余部分，我们将探讨这项研究的主要亮点，回答以下问题：

这项研究最近刚刚在CAV2020上发表，题目是“认证近似成员资格结构中的确定性和不确定性”，你可以在这里找到论文，以及这里的视频演示。

本研究项目中使用的代码和证明均为自由/开源软件，可在陶艺家资源库：https://github.com/certichain/ceramist上找到。

要将Bloomfilter用作近似集合，我们可以按如下方式执行标准集合操作：

要将一个值插入到布隆过滤器中，只需对每个哈希函数进行哈希运算，并将哈希输出作为位向量的索引，提高相应的位。

要查询Bloomfilter中的值，请再次对每个哈希函数进行哈希运算，然后检查是否引发了所有相应的位。

这些操作虽然相当简单，但实际上完全足以确保无假阴性属性(有关Coq语句，请参阅此处)：

当项目被插入Bloomfilter时，它将导致位向量中的某些位的子集被引发。由于没有可以取消设置这些位的操作，我们可以确定对插入的元素的任何后续查询都必须返回TRUE。换句话说，如果查询得到否定的结果，我们可以确定该项目以前从未插入过Bloomfilter。

这就是负面结果的情况；由于可能出现假阳性，对于正面结果来说，事情会变得稍微有趣一些。