用自己的索引查看搜索引擎

2021-03-12 15:17:29

这是对我所能找到的所有索引搜索引擎的练习述评。

具有自己的索引1的三个主导英语搜索引擎是谷歌,Bing和Yandex(Gby)。许多替代格比的替代方案存在,但几乎没有人都有自己的结果;相反,他们只是从GBY来源的结果来源。

考虑到这一点,我决定测试和编目我能找到的所有不同索引搜索引擎。我优先考虑宽度过度,并鼓励读者如果他们更喜欢更多信息,请尝试自己的发动机。

我主要评估说英语的搜索引擎,因为这是我的主要语言。有一些困难,我可能会评估西班牙语;但是,我无法找到由自己的爬行者提供动力的西班牙语发动机。

此页面是我计划无限期更新的“生活文件”。如果您发现此页面有趣,请检查一次更新。请随时发送我的建议,更新和更正;除了英语之外,我尤其欣赏那些讲语言的人的帮助,可以评估非英语索引搜索引擎。联系信息在文章页脚中。

我主要评估链接结果,并没有关注太多(通常是耀眼的)隐私问题,“增强”或“即时”结果(例如维基百科侧栏,相关的搜索,Stackexchange答案)或其他元素。

我并排对宇宙查询进行比较;如果前20个结果(几乎)与另一发动机的结果相同(虽然可能以略微不同的顺序),它们可能是外部的,而不是来自独立索引。

我试图选择应该具有很多结果的查询,并在搜索引擎之间显示方差。我测试了一个不完整的查询选择:

“vim”,“emacs”,“neovim”和“nvimrc”:搜索引擎,具有相关结果的“nvimrc”通常具有大指标。找到文本编辑“Vim”和“Emacs”的相关结果,而不是共享名称的其他主题是一个具有挑战性的任务。

“Vim Cleaner”:应返回与清洁产品系列相关的结果而不是正确的文本编辑器。

“Secirdy”:我的网站是相对较低的流量,但我的昵称在那里的几个最高交通场地上都很独特并且可见。

“项目伦敦”:一部小型电影,用志愿者和牙线制作,没有太多广告。如果与电影显示相关的链接,则发动机非常好。

“OPPENHEIMER”:一个可以参考许多事情的名称。没有上下文,它应该指在Los Alamos的原子弹上工作的物理学家。其他历史查询:“Magna Carta”(中级),“王子”(非常硬)。

谷歌:最大的指数。允许提交页面和站点以爬行,但需要登录。为其他发动机提供权力:

Bing:亚军。允许提交页面和站点以爬行,但需要登录。它的指数为许多其他引擎提供权力:

Yandex:最初是俄罗斯搜索引擎,它现在有英文版。一些俄罗斯结果流血入英国网站。允许提交页面和站点以爬行,但需要登录。权力:

Mojeek:声称是隐私导向的。质量不在谷歌/冰/ yandex的水平,但也不错。如果我不得不使用Mojeek作为我的默认总搜索引擎,我会活下去。

Petal Search:gopetal.com和petalsearch.com。华为开发的一个非常新的发动机。令人惊讶的良好结果;它通过了所有列出的测试。需要一个帐户来提交网站。我通过我的访问日志发现了这一点。

gigablast:它已经存在了一段时间,并且还有一个经典的Web目录。搜索有点慢,并提交爬行网站的费用。它为private.sh提供权力。 Gigablast与右DAO相关联。

Gowiki:非常年轻,小指数,但展示了承诺。我在secirdy中发现了这一点。一个访问日志。目前仅在美国提供。

extport:界面处于德语,但它支持以英语搜索。您的区域设置选择了默认语言。考虑到它的小指数真的很好;它没有听说过不太常见的术语(例如“Secirdy”),但它能够在其他测试中找到相关结果。

exalead:慢,质量是击中和错过。它的索引器声称爬网以逐步关闭并被卷发目录替换为此。没有相关的“oppenheimer”以及一些与其他历史相关的查询结果。允许提交用于索引的单个URL,但需要解决Google Recaptcha并输入电子邮件地址。

WBSRCH:除了其通用搜索外,它还还有许多与域名统计信息相关的其他实用程序。失败多次测试。它的指数有点日期;它有一个旧的站点,它没有完成索引。

Exactseek:小型指数,不成比例地由大站点主导。失败多次测试。允许提交个人网址进行爬行,但需要输入电子邮件地址并接收通讯。网站管理员工具似乎严重推动付费SEO选项。

yacy:社区制造的指数;慢。结果是可怕的/无关紧要的,但对内联网或自定义搜索有用。

Scopia:关闭Bing和新闻结果后似乎只能通过Metager Metasearch发动机获得。小指数,非常低质量。

爬行:年轻,慢。在此类别中,它的索引具有每个域10个URL的帽。我最初发现了secirdy中的爬虫。一个访问日志。该网站似乎现在陷入困境,所以我没有将它链接。

这些索引搜索引擎没有谷歌 - 就像“问我任何”的终端名;他们试图做不同的事情。

wiby:wiby.me和wiby.org:我喜欢这个。它侧重于捕捉“早期”网络精神的较小独立网站。它更专注于“发现”新的有趣页面与一组关键字匹配而不是查找特定资源。我喜欢将WIBY视为用于冲浪的发动机,而不是搜索。润坏偶尔偶尔有来自WIBY的击中。如果您有一个不是非常“商业”的小站点或博客,请考虑将其提交给索引。

因为我不会说必要的语言,我无法正确评估这些引擎。英语搜索这些是一个命中或错过。我可能会在这一类别中犯了一些错误。

ask.com:主要网站关闭,但UK.ASKOXM等子域仍然活着。他们声称外包搜索结果。结果似乎类似于谷歌,冰和yandex;但是,我无法确切地确定其结果来自的结果。

未评估:Apple的搜索。它只能通过IOS和MacOS中的搜索小部件访问,并显示出很少的结果。这可能会改变;请参阅下一节。

部分评估:无限搜索:年轻,小索引。它最近分成了主要索引和Infinity的付费提供,后者允许用户从社区托管的爬虫中进行选择。我设法在成为付费提供之前尝试过,似乎体面;但是,我无法运行“方法学”部分中列出的测试。允许将URL和SiteMaps提交到文本框中,无需其他工作。

这些发动机还没准备好;他们的索引要么是概念验证阶段,少数网站,或者尚未使用。

Apple:鉴于AppleBot履带的活动最近,他们的指数几乎肯定会增加到足够大的尺寸,以便很快推动一般的搜索引擎。检查服务器的访问日志;如果您有几个反向链接,它会有很好的机会爬行。

勇敢宣布,它将根据现在停止的CLIQZ启动自己的独立搜索引擎。我不赞同公司,但我希望它的结果可以通过Searx等元搜索引擎提供。

其中一些内容来自搜索引擎地图和搜索引擎派对。一些Web目录也证明有用。

是的,“索引”是一个可接受的复数形式的“索引”。 “索引”这个词对我来说听起来很奇怪。 ↩︎

Duckduckgo有一个名叫Duckduckbot的爬虫。此爬网程序不会影响显示的链接结果;它只是抓住了Favicons并刮掉了一些即时答案的数据

qwant声称也使用自己的爬虫来实现结果,但它仍然大多是bing。尝试并排比较;除了Bing结果之外,我发现它似乎没有任何东西。 ↩︎

断开搜索允许用户从Bing或Yahoo获得结果,但雅虎源从Bing来源。 ↩︎

Yippy声称由某个IBM品牌(一个可以对应于任何数量的产品)的支持,并用“Yippy Index”短语诠释结果,而是与Bing和其他基于Bing的引擎并排比较结果几乎相同。 ↩︎

ask.moe正在工作牙线索引器; 它的搜索页面表示打算在一个点处从Bing切换到它。 此声明已被删除。 ↩︎