我们被答应强大的AI,但我们得到了元数据分析

2021-04-28 10:53:03

九十年代梦想的搜索引擎梦想是他们会使用宏伟的人工智能来找到一切,了解它的大部分,并帮助我们回购它的最佳。没有多少真的成真。

谷歌一直在整个网络上进行了广泛的爬网。但是,很少有网站管理员如此天真地担任以这种方式找到他们的页面。即使这个网站超过20页,谷歌发现了所有这些网站。仅仅依靠一般爬行已经证明了最不可行的。

谷歌在2005年推出了站点地图标准,允许网站管理员只需提供所有页面的列表即可消除混淆。大多数网站现在提供网站地图文件而不是依赖普通爬网。

总之,SITEMAP文件简而言之,一个大型XML文件充满了您网站的链接'页面。我认为它说的是,即使是这种看似万无一义的数据交换格式,谷歌仍然必须提供工具来帮助网站管理员调试问题。这说,它的巨大改进了,而试图逃出为什么他们的一般爬网做出或没有找到某些页面。或者多次发现它们。

在搜索引擎找到页面后,下一步是读取它并理解它。这项工作在实践中有多好?同样,相对较少的网站期望谷歌自己自己管理这个。相反,他们提供了丰富的元数据来帮助谷歌了解页面是什么以及它如何相对于其他页面坐在。

谷歌在某些时候起到了试图解决两个类似的页面中的哪一个是原来的。而是现在有一块元数据,你加入了让谷歌知道哪个页面是"典范"版本。这是为了让他们知道哪一个放入搜索结果,例如,不要错误地消除一页' s"链接果汁"进入多个桶。

谷歌也放弃了试图神圣的作者是谁。虽然Google+是一名观众,但他们试图鼓励网站管理员将元数据附加指向作者' s google+配置文件。现在,Google+已被遗弃,而是从Facebook和#39; S OpenGraph规范中读取元数据,特别是对于除了主要的Google搜索结果之外的东西(例如,在他们向Android用户显示的新闻报道中)。对于其他数据,他们解析JSON-LD元数据标签,"微造型器"并且可能更多。

谷歌不仅仅是搜索Web文档,他们还有产品搜索,谷歌购物(最初" frogle")。 Google如何从产品描述页面中为物品推断出产品数据?这是毕竟,一个非常艰难的AI问题。答案是他们只是不要' t - 他们要求卖方以结构化格式提供该信息,准备好消耗。

谷歌当然做了文本分析,因为他们一直都这样做,但它经常忘记了他们的原始腿在其他搜索引擎上不是更好的自然语言处理,而是一个元数据:使用反向链接作为标准的代理。该过程在原始的学术纸和PageRank纸中详述。

反向解分析是一个巨大的前进,但PageRank不是了解页面上的内容,并确实在Google返回页面上的搜索结果尚未下载。相反,PageRank根据其他页面链接判断页面的优点。即,基于元数据。

毕竟,人工智能如何在寻求搜索查询时遇到相关文件?没有那么好,显示从维基百科'右手侧的infoboxes举起的结构化数据wasn' t一个重大改进。这么多搜索现在由&#34解决;侧边栏"和#34;零点击结果"对维基百科的交通实质上堕落。

剩下的搜索结果本身越来越陷入困境。我自己的个人经历是,他们现在通常由肤浅的商业和#34组成;内容"从位于正确设置他们的页面元数据以及利用谷歌&#39的最新版本所需的其他黑暗艺术所需的站点。其中'也有大量的广告。

也许这个问题的最佳衡量标准是我多久需要追加搜索条目" reddit"或"网站:reddit.com"一个查询。越来越多的是找到aren' t获得给予他们的人的意见的唯一方法。我想知道为什么Reddit似乎从来没有对商业&#34的任何关键字进行排名。内容网站"覆盖。

也许幻想更大的错觉是,当您使用Google搜索时,您可以以某种方式搜索人类知识的总和。当然,你aren' t。人类文明的积累知识仍然是在书籍中。人类写了几千年的书籍,只有几十年的网页。当您搜索时,您真的只是搜索人们所掌握的事物的总和,并设法自从1995年以来在网上。也许这是商业"内容网站&#34的一个原因。经常出现在搜索中:他们在网上放了很多东西。

替换AI ISN' T的元数据现象仅限于Web搜索。手动附加的元数据在许多领域胜过机器学习,一旦它们成熟,

当你的民选政府对你探听,他们的名言更喜欢你发电子邮件,打电话或聊到消息本身的内容谁的元数据。根据他们的朋友是谁以及他们访问的网站而不是在他们发送的信息上做什么网站,似乎对安全服务的兴趣似乎是更易行的。一旦他们'重新标记,人类可以随时阅读他们的电子邮件。

有毛茸茸的暗示,自动驾驶汽车将读取道路标志,以解决任何一段道路的速度限制,但事实似乎是他们使用当前的GPS协调在Speedlimits上手动输入数据。如果您使用右移动应用程序作为SATNAV,您可以在未来居住。

神经网络的最早商业应用之一是检测欺诈性信用卡交易。神经网的工作量很好,但不足以不够滋扰,当你去度假时锁定你的账户,或者在一个新的地方买了一杯咖啡。 American Express现在使用持卡人的组合提供了商家和短信代码的白名单,以便允许AI模型自由运行。

一般模式似乎是在首次做一些新的事情时使用人工智能。然后,一旦建立了那件事的价值,社会将找到一种方法来以机器可读格式提供必要的数据,避免(并改进)AI模型。

我肯定有人'那里的人不知疲倦地完成所有不同的技术 - 计算机视觉,控制系统,深度感知等 - 为了使特斯拉成功地导航麦当劳和#39; s驱动器通过。正如他们所分类的,并且展示其实用程序,麦当劳可能只是计算并将这些路线提供为公共信息。毕竟,当你可以在XML文件中写下来时,为什么要对数学和机器愿望打扰?

当然,这一切都只有在您可以信任元数据就是正确的时候。这并不总是如此,这是谷歌不再索引元描述字符串的主要原因。那些令人震惊的网站管理员继续进入谎言!

但是你不要始终必须使用来自事物所有者的元数据。元数据可能由一些中立的第三方提供,作为公共记录的问题或只是众多不相关数据点的累积权重。这是谷歌在搜索引擎结果页面上显示维基百科数据时会发生的事情。或商业地址。它'还有PageRank如何工作。

谷歌从不发布他们用聪明的AI技术推断出网页的内容。甚至网站管理员甚至只能访问有关自己站点的非常小部分的数据,以允许它们调试问题。整个系统令人惊叹不透明。

元数据的最佳论点是它' s打开,有人读到。任何想要轻松地为OpenGraph标记编写解析器的人。他们不需要GAD的AI模型或云计算,或者无论是如何理解关于网页的东西。

但是,它的重要性是,元数据坐在本身或附近,如果它没有,那就是那个' t,那是许多互动或合作的要求。必须恳求访问或支付元数据,通常最终授权或创建不必要的数据中间人(无人驾驶,并讨论如何"数据是新的油")。最多它创造了开始的障碍。特别是融资凭借这个问题。

谷歌自己大声说,通常是那个网站管理员应该"忘记元数据并专注于内容"这进入谷歌Mythos,他们有一些Godlike电源来算法地理解网页。它也误导了公众,元数据是某种辅助的,并且搜索引擎将自己全部工作。这使得WebMasters令人困惑,这些东西会帮助人们发现他们的页面,如揭幕手册或推特卡。巨大数量的人和#34; SEO"正如他们的职称,真的应该把谎言放在首位,即元数据并不重要,而且谷歌是一个公平的制度。

在现存(但神秘)或即将举行的人工智能方面的过度信心往往会劝阻人们寻求更简单的解决方案。当其他人对蓬勃发展的强烈AI展现出来时,你觉得一个白痴暗示了作为XML标签的东西。毕竟,与所有这些recaptchas i' m填写,机器必须非常擅长识别棕榈树。

但"机器可读"严格占主导地位机器学习。然而,尚未为数据科学家们,一旦他们建立了用电脑做一些新的东西,人们就会急于应用元数据,使过程更加可靠和解释。一盎司的标记可以节省一磅的tensorflow。

请随时向我发送一封关于这篇文章的电子邮件,特别是如果您不同意它。

当我通过电子邮件警报或RSS Feed写新的东西时,您可以收到通知。

如果您享受了本文,因此由于对我感到慈善,请测试我的网站项目,Quarchive,讨论福斯社交书签风格网站,并给我发电子邮件!

彼得·泰尔在他的书的一章中相当令人信服地写了一些关于人类如何与机器学习一起工作。它只是一个羞耻的羞耻,他谈论了他的地方理事会对公众的监督。

泰尔也是&#34的来源;我们想要飞行的汽车,但我们有140个字符"报价已被谴责到遗忘以上:"我们想要飞行的汽车,但我们所拥有的只是抱着所有人类知识和#34的口袋大小的黑色方块。如果只是真的。

Cory Doctorow很久以前写了一篇名为Metacrap的文章。我认为它'对雄心勃勃地讨论的是雄心勃勃的元数据(语义网络人的可能性),但它确实与思想结束,即页面元数据是一个从根本上的好主意。

Larry Page和Sergey Brin最初是关于销售广告的搜索引擎的负面负面。他们原来的论文中的附录A说:

我们希望广告资助的搜索引擎本质上偏向广告商,远离消费者的需求 我们相信广告问题导致足够的混合激励措施,使得具有透明和学术领域的竞争搜索引擎至关重要 另一个博客文章可以写入其他Web元数据的令人难以置信的增长:出于安全原因存在。 X-Content-Type-Options,X-Frame-Options和X-XS-Protection全部令人困惑,可能主要是MIS设置或忽略。 有多少站点设置了内容 - 安全策略,或者根本是? 如果你'对此感兴趣,我强烈推荐这本书纠结的网站。 即使它正在慢慢收到日期,它仍然是在网络协议和#34中可能出现问题的所有事情的直觉来源。 代码执行。