当好的模式变坏时:错误的正则表达式

2020-12-07 05:06:16

我曾经在一家使用正则表达式匹配(模式匹配)进行网络流量的公司工作。焦虑的一个主要根源是“未知流量”的数量,这是没有规律可比的。我们的销售团队希望减少这种情况。我们的客户希望更少。我们的竞争对手少了。我们为什么不能呢?

我曾经回答过以下问题。 “您知道,我可以采用一种不匹配的错误模式,即误报。未知数将减少。这样会更好吗?我现在可以让0%的人知道。”。有趣的是,有些人会同意“确定,让我们这样做”的说法。有人会说:“不要荒谬,我要100%知道而0%不正确。”我将回答最后一个问题为“如果您制定了自己的专有协议,即车牌协议,该怎么办?您,只有您使用它。流中的数据是从您的车牌中加密的。您会希望有一种模式吗?”。他们通常会说不,然后我会指出0%的未知目标是错误的目标,真实的目标是0%的已知错误和众所周知的可行目标。仍然没有阻止竞争对手使用虚假的误报来获取更高的已知金额。

昨天我收到了Google优秀人士的电子邮件。他们正在启动一个新的文档泄漏工具。它会扫描您的共享文档中的敏感内容(电子邮件,医疗之类的东西)。我的在下面。令人震惊。我的共享文件中有7%包含敏感信息!哦,不!

但是后来我开始阅读……它是相同的模式匹配技术。我可以保证我的公司处理的是0%“ FDA批准的处方”信息。我们还有0%的IBAN和SWIFT以及信用卡号。

现在,必须从报告中找到找到违规文件的方法,对吗?错误。您得到一个数字:“您共享的9%的文档都具有“全球性别标识”。那有什么意思?

这就是使数据不可信且几乎没有用的方式。我花时间试图弄清楚号召性用语是什么。最终,我意识到号召采取行动是无视:Google的某人写了一些不好的正则表达式。他们已经在我的文档上运行了它们。他们共享了类别和计数,但没有共享链接。他们的假阳性引擎花了我很多时间,并没有给宇宙增加任何东西。

可悲的是,我认为有些人为各种事情购买了模式引擎,并且朝着0%未知的错误目标迈进。它必须匹配,对不对?错误。