过滤嵌入在Web文章中的时事通讯注册表格

2021-06-14 16:33:25

互联网上很少有网站旨在促进阅读 - 最重要的是旨在抑制阅读。

艾伦雅各布

没有广告拦截器舒适地在线浏览和阅读Web文章很难。使用Ublock Origin来阻止广告大大提高了体验,但甚至可以做更多。

为了改善重点阅读,您将希望考虑过滤越来越多地出现嵌入文本段落之间的非基本要素。其中一个是时事通讯注册块。

当您在您开始阅读的内容中间出现时,注册表格很烦人。但是当从剩下的内容分开的视觉样式被剥夺时,它们更令人讨厌。如果您使用浏览器的读卡器模式,上面的文章将如下所示:

如果您使用推动我们的推动点或简单的打印应用程序,或者像笨拙或instapaper这样的读取它,您可能已经注意到类似的入侵。

值得庆幸的是,有人维护过滤器列表,针对这样的烦恼。 AD阻滞剂的较小功能是他们使用这些列表进行其他筛选的能力,以删除注册表单,社交媒体共享按钮,Cookie警告等。

用于删除此类烦恼的一个经常更新的过滤器是Fanboy的烦恼列表。它包含超过2,000个针对各种时事通讯和电子邮件注册块的过滤器。

以下是它包含目标通讯的元素隐藏过滤器的样本:

粗体中的行包含CSS选择器,用于针对ARS技术站点上的时事通讯块(如上面的屏幕截图中的一个)。如果您浏览了在您的广告栏中启用了此列表,则会在文章中看到这些嵌入的这些更少。

我们在这里的Ublock原产地的大粉丝,所以如果你正在使用它,这是如何启用Fanboy的烦恼列表:

就是这样!现在当您加载文章时,您应该开始在文本中看到更少的分心。

我们最近在我们的软件中开始应用于Fanboy的烦恼列表中的大多数元素过滤器。在向Kindle加工文章内容时,简单的打印和全文RSS,这些过滤器现在已应用。

但是,Fanboy的烦恼滤镜列表通常在完整网页的上下文中应用。当我们在刚刚的文章机构的上下文中应用它时,我们使用其过滤器的一个小子集。因此,我们将很快将过滤列表击倒在筛选器列表中,只是那些匹配文章文本中的元素的那些。

抛弃页面上下文,勇敢的研究人员已经完成了一些有趣的工作来弄清楚现在的流行过滤列表的陈旧量度(过滤器,该目标元素或网络请求不再在Web上发生)。

谈到时事通讯和电子邮件注册表单,以下是来自Fanboy的烦恼列表中的一些CSS选择器,我们在跨越域中找到了匹配的元素:

匹配这些过滤器(以及更多)匹配的元素从我们的提取器返回的最终文章中删除。我们将在下次发布全文RSS中包含全套过滤器。

最后,重要的是要注意这些过滤列表通过社区努力保持。如果您在浏览器中阅读的文章或网页中注意到烦恼,请向维护者报告,以帮助改进列表。您可以在EasyList论坛中报告作为问题或邮寄。

如果您在我们的工具处理的文章中注意到烦恼,请在我们的论坛中发布。我们会尽力让他们删除。 (这些过滤器有时也可以匹配和删除不应删除的元素,因此如果您最近发现了任何奇数结果,请告诉我们我们会调查。)