当好的模式变坏时：错误的正则表达式

2020-12-07 05:06:16

我曾经在一家使用正则表达式匹配（模式匹配）进行网络流量的公司工作。焦虑的一个主要根源是“未知流量”的数量，这是没有规律可比的。我们的销售团队希望减少这种情况。我们的客户希望更少。我们的竞争对手少了。我们为什么不能呢？

我曾经回答过以下问题。 “您知道，我可以采用一种不匹配的错误模式，即误报。未知数将减少。这样会更好吗？我现在可以让0％的人知道。”。有趣的是，有些人会同意“确定，让我们这样做”的说法。有人会说：“不要荒谬，我要100％知道而0％不正确。”我将回答最后一个问题为“如果您制定了自己的专有协议，即车牌协议，该怎么办？您，只有您使用它。流中的数据是从您的车牌中加密的。您会希望有一种模式吗？”。他们通常会说不，然后我会指出0％的未知目标是错误的目标，真实的目标是0％的已知错误和众所周知的可行目标。仍然没有阻止竞争对手使用虚假的误报来获取更高的已知金额。

昨天我收到了Google优秀人士的电子邮件。他们正在启动一个新的文档泄漏工具。它会扫描您的共享文档中的敏感内容（电子邮件，医疗之类的东西）。我的在下面。令人震惊。我的共享文件中有7％包含敏感信息！哦，不！

但是后来我开始阅读……它是相同的模式匹配技术。我可以保证我的公司处理的是0％“ FDA批准的处方”信息。我们还有0％的IBAN和SWIFT以及信用卡号。

现在，必须从报告中找到找到违规文件的方法，对吗？错误。您得到一个数字：“您共享的9％的文档都具有“全球性别标识”。那有什么意思？

这就是使数据不可信且几乎没有用的方式。我花时间试图弄清楚号召性用语是什么。最终，我意识到号召采取行动是无视：Google的某人写了一些不好的正则表达式。他们已经在我的文档上运行了它们。他们共享了类别和计数，但没有共享链接。他们的假阳性引擎花了我很多时间，并没有给宇宙增加任何东西。

可悲的是，我认为有些人为各种事情购买了模式引擎，并且朝着0％未知的错误目标迈进。它必须匹配，对不对？错误。

https://blog.donbowman.ca/2020/12/04/when-good-patterns-go-bad-the-false-positive-regex/

tags users