Xayn是由设备上的AI支持的隐私安全的个性化移动Web搜索

2020-12-08 23:16:10

TechCrunch自己的企业总公司Verizon还从各种端点(移动设备,此类媒体属性)收集数据,以支持自己的广告定位业务。

无数其他人依靠获取用户数据来提取一些感知价值。这些企业中几乎没有一个能完全透明地知道他们正在收集多少和哪种私人情报,或者实际上是他们在做什么。但是,如果网络不必那样的话怎么办?

总部位于柏林的Xayn希望改变这一动态-从在智能手机上进行个性化但隐私安全的网络搜索开始。

今天,它推出了一个搜索引擎应用程序(在Android和iOS上),该应用程序提供了个性化搜索结果的便利,却没有“通常”的肩膀冲浪。这是可能的,因为该应用运行的是在本地学习的设备上AI模型。承诺永远不会上传任何数据(尽管经过培训的AI模型本身也可以)。

该应用程序背后的团队由30%的博士组成,致力于核心隐私与便利性问题已有六年了(尽管该公司成立于2017年);最初是一个学术研究项目,后来又提供了一个用于屏蔽联合学习的开源框架XayNet。 Xayn应用程序基于该框架。

迄今为止,他们已经筹集了大约950万欧元的早期资金-来自欧洲风险投资公司Earlybird的投资; Dominik Schiener(爱荷华州联合创始人);瑞典认证和支付服务公司Thales AB。

现在,他们正在通过将其XayNet技术应用到面向用户的搜索应用程序中来实现商业化-旨在将首席执行官兼联合创始人Leif-NissenLundbæk博士称为“缩放”风格的业务模型,无处不在的视频会议工具,具有免费和付费用户。

这意味着Xayn的搜索不受广告支持。那就对了;您在搜索结果中获得零个广告。

相反,该想法是让消费者应用程序充当由同一核心AI技术提供支持的b2b产品的展示。向商业/公共部门客户推销的是更快的公司/内部搜索,而不会损害商业数据的隐私。

隆德贝克(Lundbæk)认为,企业迫切需要更好的搜索工具来(安全地)应用于自己的数据,并表示研究表明,总体而言,搜索花费了全球工作时间的18%。他还引用了一个城市当局的一项研究,该研究发现员工在工作中花费了37%的时间来搜索文档或其他数字内容。

他说:“这是一种Google尝试但未能成功的商业模式,我们不仅在解决普通人遇到的问题,而且在解决公司遇到的问题……对他们而言,拥有隐私不是一件好事;它必须在那里,否则就没有使用任何东西的机会。”

在消费者方面,还将有一些面向该应用程序的高级附加组件-因此计划将其免费下载。

要注意的一件事是Xayn新推出的网络搜索应用程序,它使用户可以说出他们所看到的内容是否对他们有用(或没有)。

它通过Tinder样式向右(或向左)滑动机制来实现此目的,该机制使用户可以在正确的方向上微调其个性化算法-从填充新闻内容(按国家/地区本地化)的主屏幕开始,然后扩展到搜索结果页面。

以新闻为中心的主屏幕是另一个值得注意的功能。听起来将来可能会在高级卡上使用不同类型的主屏幕供稿。

该应用程序的另一个关键功能是可以完全打开或关闭个性化搜索结果的功能-只需点击右上角的大脑图标即可关闭(或重新打开)人工智能。没有运行AI的结果将无法滑动,除了添加书签/共享。

在其他地方,该应用程序包括一个历史记录页面,该页面列出了过去7天(默认情况下)的搜索。提供的其他选项包括:今天,30天或所有历史记录(以及一个bin按钮以清除搜索)。

还有一个“收藏夹”功能,可让您创建和访问书签的文件夹。

滚动浏览搜索结果时,可以向右滑动并选择书签图标,将一个项目添加到“收藏夹”中,然后打开提示,选择要添加到哪个收藏夹。

如果稍微拖延以加载TechFrunch测试版TechCrunch中的内容,而在启动前就签出,则滑动式界面感觉很熟悉且直观。

在内容上向左滑动可打开带有警告“ x”标记的亮粉色块。继续前进,您将把消失的物品发送到以太币中,估计将来会少一些。

而向右滑动则确认一条内容是有用的。这意味着它将停留在提要中(以Xayn绿色标出)。 (向右滑动还会显示书签选项和共享按钮。)

尽管市场上已经存在支持隐私/非跟踪的搜索引擎,例如美国的DuckDuckGo或法国的Qwant,但Xayn认为,此类竞争对手的用户体验往往不如您从Google这样的跟踪搜索引擎获得的体验,即在搜索结果的相关性以及因此花费的搜索时间方面。

简而言之:与谷歌搜索相比,您可能需要花费更多的时间进行“ DDGing”或“ Qwanting”才能获得所需的具体答案-因此,与“安全费用”相关的是在网络搜索时保护您的隐私。

Xayn的争论是,在在线搜索时,还有第三种更聪明的方式来保持“虚拟衣服”的穿着。这涉及实现可在设备上学习的AI模型,并且可以以隐私安全的方式进行组合,从而可以个性化结果而不会给人们的数据带来风险。

“隐私是最根本的……这意味着,与其他隐私解决方案一样,我们也一无所获。什么都没有发送到我们的服务器;我们当然不存储任何东西;我们什么也没追踪。当然,我们要确保那里的任何连接基本上都是安全的,并且根本不允许进行任何追踪。”Lundbæk解释说,该团队采用了AI推动的,去中心化/边缘计算的方法。

Xayn正在利用许多搜索索引源,其中包括(但不仅限于)Microsoft的Bing(根据Lundbæk的说法),他描述的这一行为与DuckDuckGo(具有自己的网络抓取机器人)“相对相似”。

最大的区别在于,该公司还应用自己的排名算法来生成隐私安全的个性化搜索结果(而DDG使用基于上下文广告的业务模型-无需定位用户即可查看诸如位置和关键字搜索之类的简单信号来定位广告)。

据伦德贝克(Lundbæk)称,这种方法的缺点是用户可能会充斥广告,这是因为目标定位较为简单,这意味着企业会投放更多广告来尝试增加点击机会。搜索结果中的广告负载显然不能带来出色的搜索体验。

“我们在设备级别获得了很多结果,并且进行了一些特殊的索引编制-因此我们在设备级别和索引上进行了构建-借助此特殊索引,我们应用了搜索算法以对其进行过滤,仅向您展示Lundbæk勾勒出Xayn的工作原理时说道。 “或者基本上将其降级……但是我们也尝试保持新鲜度并进行探索,并在可能与您没有太大关系的事物上进行改进,但它为您提供了一定的保证,确保您不会陷入泡沫。”

Xayn所做的某些事情是在联邦学习(FL)领域中进行的,这是Google近年来一直在尝试的一项技术,其中包括推动一项“隐私安全”的提案来取代第三方跟踪Cookie。但是Xayn辩称,作为数据业务公司,这家科技巨头的利益根本不符合切断其对用户数据管道的访问权限(即使要改用FL进行搜索)。

而作为一家小型的,支持隐私的德国初创公司的利益却截然不同。据称,Ergo是其花费了数年时间建立的保护隐私的技术,在保护人们的数据方面具有可信的利益。

Lundbæk指出:“与我们团队相比,在Google从事联邦学习的人数实际上[更少],”他补充说:“我们一直在批评TFF(由Google设计的TensorFlow Federated)。这是联合学习,但实际上根本没有进行任何加密-而且Google那里有很多后门。

“您必须了解Google真正想要做什么? Google希望替换[跟踪] cookie,但尤其是他们希望替换这种麻烦的征求用户同意的东西。但是当然他们仍然需要您的数据。他们不想在这里给您更多的隐私;他们实际上想(最后)使您的数据更加轻松。通过纯粹的联合学习,您实际上没有隐私解决方案。

“要确保隐私保护,您必须付出很多努力。而且,纯TFF当然不是那种可以保护隐私的方法。因此,他们将把这种技术用于基本上所有用户体验中的事物,例如cookie,但是如果他们直接将其用于搜索,我会感到非常惊讶。即使他们愿意这样做,系统中也有很多后门,因此使用TFF实际获取数据非常容易。因此,对于他们来说,这只是一个不错的解决方法。”

他补充说:“数据基本上是Google的基本业务模型。” “因此,我敢肯定,他们所做的一切当然都是朝着正确方向迈出的美好一步……但是我认为Google在这里扮演了一个聪明的角色,虽然有点儿但又不过分。”

该应用程序每台设备运行四个AI模型,将同一个设备的加密AI模型异步(同态加密)组合为一个集合模型。它说,第二步需要将该集体模型反馈到各个设备上,以个性化所提供的内容。

设备上运行的四种AI模型是一种用于自然语言处理的模型。一种用于分组兴趣;一种用于分析域偏好;一个用于计算上下文。

Lundbæk表示:“知识得到保留,但数据基本上始终停留在设备级别上。”

“我们可以简单地在您的手机上训练许多不同的AI模型,并确定我们是否例如结合了这些知识中的某些知识,或者它是否也存在于您的设备中。”

他继续说道:“我们已经开发出了一种非常复杂的解决方案,其中包含四种相互配合的人工智能模型,”他指出,它们可以为每个用户建立“兴趣中心和不喜欢中心”,再次基于这些滑动-他说“必须非常有效率-基本上必须随着时间的推移并与您的利益保持一致”。

用户与Xayn互动的次数越多,通过设备上的学习获得的个性化引擎就越精确-加上通过滑动以提供喜欢/不喜欢的反馈而能够积极参与的更多用户层。

个性化水平非常个人化-Lundbæk称其为“超级个性化”-而不是像Google这样的跟踪搜索引擎,他指出,跟踪搜索引擎还比较了跨用户模式以确定要提供的结果-他说Xayn绝对不会做。

Lundbæk说:“我们必须完全集中于一个用户,因此我们面临的是'小数据'问题,而不是大数据问题。 “因此,我们必须学习得非常快-仅从8到20个交互中,我们就已经从您那里了解了很多。当然,至关重要的是,如果您进行如此快速的学习,那么您就必须更加注意滤泡-或所谓的滤泡。我们必须防止发动机偏向某种方向。”

为了避免这种回声室/过滤器气泡类型的影响,Xayn团队将引擎设计为在两个不同的阶段运行,在这两个阶段之间进行切换:称为“探索”和(更不幸的是)“探索”(即就其本身而言,知道有关用户的某些信息,因此可以确定它提供的服务是相关的)。

他指出:“我们必须保持新鲜感,我们必须继续探索事物。”这就是为什么它开发了四个AI之一(用于计算上下文的动态上下文多臂强盗强化学习算法)的原因。

除了本机旨在保护用户隐私的应用程序基础架构外,Xayn认为还有许多其他优势-例如能够从个人那里获得潜在的非常明确的利益标志;并避免因跟踪服务使用户蠕动而造成的寒蝉效应(以至于人们避免进行某些搜索以防止他们影响未来的结果)。

“作为用户,您可以通过简单地滑动来决定是否要学习算法-是要显示更多还是更少?因此,这非常容易,因此您可以非常轻松地训练系统。”他说。

不过,这种方法也可能会有一点缺点-假设算法(启用时)默认情况下会进行一些学习(即在没有来自用户的任何生命/厌恶信号的情况下)。

这是因为这给用户带来了负担(通过轻扫他们的反馈)进行交互,以便从Xayn获得最佳搜索结果。因此,这是对用户的一项主动要求,而不是像Google这样的技术巨头习惯使用的典型被动背景数据挖掘和配置Web用户(但是,这对于他们的隐私而言是可怕的)。

这意味着使用该应用程序会产生“持续的”交互成本,或者至少要从中获得最相关的结果。例如,如果您不建议您将一堆自然结果没用的话,就不要建议它们自然地滚动过去,而是积极地表示对每个结果都不感兴趣。

为了使该应用程序最有用,最终可能需要仔细权衡每一项的费用,并向AI提供实用程序判定。 (在在线便利性的竞争中,数字摩擦的每一个点都无济于事。)

当被问到这一点时,隆德贝克告诉我们:“不刷人工智能,它只会从非常虚弱的喜欢中学习,而不会从厌恶中学习。因此,学习是在进行的(如果您打开了AI),但是它很小,效果不大。这些条件是动态的,因此,从访问网站后喜欢某些东西的经验中,可以学习模式。此外,在4种AI模型中(仅领域学习模型)只有1种是从纯点击中学习的;其他人没有。”

Xayn似乎还活着会受到刷卡机制的风险,从而导致应用程序感到艰巨。隆德贝克(Lundbæk)表示,该团队希望将来增加“某种游戏化方面”,以将机制从纯粹的摩擦转变为“有趣的事情”。尽管还有待观察他们在这方面提出了什么。

Xayn与Google的使用不可避免地会有些滞后,这是因为前者必须运行设备上的AI培训(而Google只是将您的数据悬停在其云中,因此它可以使用专用的超速处理它计算硬件,包括定制的芯片组)。

Lundbæk承认:“我们已经为此进行了一年多的工作,核心重点是将其投放到大街上,表明它行之有效-当然,它的速度要比Google慢。”

“ Google无需执行任何[设备上的]流程,Google甚至开发了自己的硬件;他们正是为处理这种模型而开发了TPU,”他继续说道。 “如果您比较这种硬件,我们甚至甚至可以在手机上实现[Xayn的设备上AI处理],这一点令人印象深刻。但是,它当然比Google慢。”

伦德贝克说,该团队正在努力提高Xayn的速度。而且,由于它更加专注于这种优化类型,因此有望获得进一步的收益-推出比当前迭代速度快40倍的版本。

他补充说:“最终它不会快40倍,因为我们还将使用它来分析更多内容-为您提供更广阔的视野-但随着时间的推移它将更快。”

关于搜索结果与Google的准确性,他认为后者的“网络效应”竞争优势(即Google拥有更多用户的搜索排名优势)并非无懈可击,因为边缘AI可以在“小数据”上实现智能工作。

“现在,我们比较自己,主要是与Bing和DuckDuckGo等进行比较。显然,我们得到的结果要比与Google相比要好得多,但Google当然是市场的领导者,并且使用了大量的个性化设置。

“但是有趣的是,到目前为止,Google不仅使用个性化设置,而且还使用了某种网络效果。 PageRank很大程度上是一种网络效应,在该效应中,他们拥有更多用户的大多数用户可以获得更好的结果,因为他们跟踪人们点击某事的频率并将其提高了。

“现在有趣的效果是,通过AI技术(例如我们使用的技术),网络效果变得越来越重要。因此,实际上我想说的是,如果您真的想与纯AI技术竞争,那么网络效应就不再存在了。因此,我们现在可以获得与Google几乎一样的相关结果,而且随着时间的推移,我们当然也可以获得更好的结果或竞争结果。但是我们不同。”

在我们对Beta版应用程序的简要测试中,Xayn的搜索结果显然没有让简单搜索感到失望(并且可能会随着使用的进行而改善)。再者,轻微的负载滞后会增加一点摩擦,与通常的搜索竞赛相比,摩擦是立即显而易见的。

这不是破坏交易的行为-提醒您,搜索中的性能期望并不是小菜一碟(即使您可以保证无cookie的体验)。

Lundbæk辩称:“到目前为止,Google一直具有网络效应的优势-但是这种网络效应变得越来越少,并且您已经看到越来越多的Google替代方案正在出现,”Lundbæk认为,这表明对隐私的担忧正在为人们提供更多的机会搜索领域的竞争。

“不再像Facebook那样,所以每个人都必须有一个网络。我认为这实际上是一个很好的情况,因为竞争始终有利于技术创新,也可以满足不同的客户需求。”

当然,对于任何想成为Google搜索竞争对手的人来说,最大的挑战是如何偷猎(某些)用户,而Google搜索本身在欧洲的市场份额超过90%。

隆德贝克(Lundbæk)说,这家初创公司目前还没有计划在营销上大举投资。实际上,他说,他们希望可持续地增加使用量,目的是与“早期采用者”的“紧密社区”“逐步”发展产品-还依赖于亲隐私技术领域其他人的交叉推广。接触相关影响者。

他还认为主流媒体对隐私主题的兴趣足以引起人们的兴趣。

他说:“我认为我们有一个如此相关的主题,尤其是现在。” “因为我们不仅要表明自己可以进行搜索,而且我们认为我们展示了一个很好的示例,您可以针对任何情况进行此操作。” “您并不总是需要美国所谓的“最佳”大型公司,这些公司当然会获取所有数据,并建立个人资料。 然后,您将获得这些小巧可爱的隐私保护解决方案,这些解决方案不会使用其中任何一种,但会带来糟糕的用户体验。 因此,我们想证明这不再是现状-您应该开始建立真正基于欧洲价值观的替代方案。” 尽管欧洲消费者大多继续拥护大型(美国)技术,但如今欧洲立法者在技术主权问题上的发言无疑是很重要的。 也许更相关的是,区域数据保护要求使其依赖美国的服务变得越来越困难。 ......