迈克尔·阿布拉什(Michael Abrash)和安德鲁·博斯沃思(Andrew Bosworth)就Facebook AR眼镜背后的技术、Facebook将如何使用眼镜中的个人数据等问题进行了采访

2020-09-27 14:21:22

想象一下,你的智能手机正在变形,环绕着你的眼睛。但现在它不再是深黑的屏幕,而是透明的。你的应用程序可以突然与你在现实世界中看到的东西在你面前互动。

与许多科技公司一样,Facebook认为增强现实(AR)眼镜最终将取代智能手机,成为我们主要的个人计算设备。对于这家社交网络巨头来说,这是一个诱人的可能性,它希望利用AR将其社交应用和内容与我们周围的世界整合起来。有了Facebook AR,该公司希望有一天你能在厨房的桌子上与坐在你对面的远方朋友的头像聊天,或者当陌生人在街上走近你时看到他们在Instagram上的最新帖子。

除了在你和它的社交网络服务之间提供一种全新的互动模式之外,Facebook还将AR视为一个控制整个硬件-软件体验的机会,这是它以前从未实现的。在硬件方面,它错过了移动浪潮。当iPhone和Android手机问世时,Facebook还没有能力生产自己的智能手机。今天,它的应用程序非常受欢迎,但它必须依赖苹果、谷歌和其他公司制造的硬件来将它们交付给用户。

就像它的Oculus VR系列一样,Facebook认为AR眼镜为公司提供了一个拥有整个系统的机会,并获得了随之而来的财务和性能好处。该公司目前在全球拥有超过20亿用户和大量的广告收入,正在投入大量资金和越来越多的人来创造自己的AR眼镜和最终将提供的虚拟体验。

虽然苹果一直对其增强现实眼镜的开发守口如瓶,但Facebook已经决定公开它是如何建造这款未来主义设备的版本的。公司代表在上周的Connect大会上直言不讳地谈到了Facebook AR眼镜的发展。我与迈克尔·阿布拉什(Michael Abrash)就这个问题进行了更加坦率的交谈,他是该项目背后的首席科学家,也是个人计算机时代的老手。Abrash职业生涯的大部分时间都在开发游戏-包括20世纪90年代id Software的第一人称射击游戏Quake。让Facebook的AR眼镜升空,以及为Facebook用户提供社交AR体验的生态系统,可能是他职业生涯中最大的挑战。

阿布拉什很快表示,Facebook的AR眼镜还需要数年时间。他谈到了为眼镜建造显示器所需的突破,创建人们可以共享的通用增强世界所需的地图系统,控制设备的新颖新方法,理解眼镜所见所闻的深度人工智能(AI)模型,以及足够强大的微型处理器。所有这些都必须以某种方式装进一副足够薄的眼镜里,这样人们才能整天戴着它们。

还有一个问题是让人们信任像Facebook这样的公司来存储和保护AR眼镜将能够收集的极端个人数据的隐私。尽管Facebook拥有克服技术障碍并最终将一副AR眼镜推向市场所需的所有资金、资源和大牌人才,但它将不得不击败苹果。如果它的AR眼镜确实与苹果的面对面竞争,Facebook可能会发现自己处于劣势。一旦人们了解了AR眼镜的数据捕获能力,他们可能会认为苹果的隐私记录使其更容易受到信任。

阿布拉什坦率地谈到了这些问题,产品的长期愿景,以及Facebook是如何实现这一目标的。阿布拉什说:“我非常清楚我们离现在的位置还有多远。”

当成熟的AR眼镜真的到来时,他们将带来一个与我们习惯的截然不同的图形用户界面。AR眼镜的3D用户界面看起来会比2D屏幕和手动控制模式更大,更具沉浸感,从第一台个人电脑到最新的智能手机,无所不包。AR眼镜的显示屏离你的眼睛如此之近,用户界面看起来就像是围绕着你的整个可见世界而构建的。

“突然之间,你不再是在一个有控制输入的受控环境中,而是置身于每一个环境中。。。在你的一生中,“阿布拉什说。

由于这种沉浸感,以及你的个人技术的用户界面将在世界上随时随地移动的想法,Facebook相信AR眼镜的佩戴者与他们的个人技术交流的方式将与现在截然不同。阿布拉什说,有时你会用手做手势(由眼镜上的手部跟踪摄像头检测到),另一些时候你可以通过语音发出命令(由设备中的麦克风阵列拾取)。

但是,阿布拉什指出,在某些社交场合,这些控制技术的方式可能会让人感到尴尬。例如,如果你在街上与某人交谈,你很可能不会想做手势或语音命令。另一个人可能会认为你疯了,或者,如果他们知道眼镜的话,会担心你可能会调出关于他们的信息。你需要一些更谨慎的方法来控制你的眼镜。

在这种情况下,眼镜摄像头中的眼球跟踪技术可能会更有效。你可以通过将眼睛停留在你想要的东西上,从眼镜内投影的菜单中选择项目。但即便如此,站在你面前的人也可能会注意到这一点。

阿布拉什说,用手指做小动作可能会更加谨慎,他指的是一种名为肌电图(EMG)的新输入法,这种输入法使用来自大脑的电信号来控制设备的功能。

这项技术是由Facebook于2019年收购的一家名为CTRL-Labs的公司开发的。Ctrl-labs的研究人员一直在测试使用手镯设备拦截大脑通过手腕上的运动神经发出的信号以控制手指运动的可能性。他们已经取得了一些成功,正如这段视频所展示的那样。

理论上,佩戴这种手镯的人可以被教导通过特定的手指运动来控制AR眼镜的用户界面的各个方面。但手指肌肉的实际运动将是次要的:手环将捕捉大脑发送的电信号,甚至在电信号到达手指之前,然后将这些信号转换为软件可以理解的输入。

“肌电图可以像鼠标点击或按键一样高度可靠,”阿布拉什在Connect大会上发表演讲时说,这次会议实际上是今年举行的。“EMG只会提供一两个我称之为神经点击的功能,相当于轻敲一个按钮或按下然后松开它,但它很快就会发展成更丰富的控制。”

阿布拉什说,大脑的信号更强,更容易在手腕上阅读,而且比使用头部传感器阅读时要模糊得多。随着技术的进步,手镯也许能够捕捉到用户移动手指的意图,而不需要实际的物理移动。

这项技术并不是准确地读取用户的想法;它是分析来自大脑的电信号,这些电信号是由他们的想法产生的。但有些人可能不会做出这样的区分。当阿布拉什在Connect主题演讲中谈到肌电时,几个观看直播的人在评论区注意到:“Facebook在读我的心思!”

创建AR体验-特别是社交体验-最棘手的问题之一是将常见的3D图形世界映射到现实世界,以便每个人都可以看到相同的AR内容。Nitic在其2016款精灵宝可梦Go AR游戏中使用了这样的地图,让所有玩家在玩游戏时在相同的物理位置看到相同的精灵宝可梦。

Facebook的地图被称为LiveMaps,它将作为一种上层建筑,所有的AR体验都将建立在它的基础上。

在更技术性的层面上,你需要一张地图,这样眼镜就不需要费力地自己定位了。阿布拉什说:“你真的想重建你周围的空间,并将其保留在我们所说的LiveMap中,因为这样你的眼镜就不必不断地重建它,这是非常耗电的。”他说,眼镜可以将地图用作缓存的位置数据,然后设备所要做的就是寻找地图的变化,并用新数据更新它们。

Abrash说,LiveMaps将把数据组织成三个主要层:位置、索引和内容。

位置层是世界上可能放置AR对象或可能与化身进行虚拟会议的所有位置的共享坐标系。这些数据允许放置“持久的”3D图形对象,即固定在物理世界中特定位置的对象。例如,谷歌地图(Google Maps)在街道和地标附近放置持续的数字方向指示器(通过手机摄像头查看),以帮助人们认路。

但LiveMap必须比公共空间走得更远。它还必须绘制你可能戴AR眼镜的任何私人场所的地图,包括你家的房间-任何你可能放置虚拟物品或与朋友的头像举行虚拟聚会的地方。

LiveMaps中的索引层捕获空间中物理对象的属性,以及许多其他元数据,包括对象的用途、它如何与其他对象交互、它是由什么组成的,以及它是如何移动的。了解所有这些对于以看起来自然的方式放置AR对象并遵守物理定律至关重要。阿布拉什说,同样的数据允许你把你朋友的头像放在你公寓里的桌子对面,而不会让他们的(虚拟)身体被(真实的)桌面切成两半。索引层正在不断更新。例如,如果你回家时戴着AR眼镜,索引层可能会捕捉到摄像机看到你放下钥匙的位置。

第三层,内容,包含放置在用户世界中任何地方的数字AR对象的所有位置-公共的或私有的。但是,阿布拉什说,这真的远远不止于此。他解释说,这一层存储了“对我们每个人都很重要的实体和事件的关系、历史和预测,无论它们是否植根于现实世界。”这意味着这一层可以捕捉任何东西,从墙上的一幅虚拟绘画到你最喜欢的餐厅列表,再到即将到来的商务旅行的细节。他的这一层还链接到定义“绘画”、“餐厅”或“商务旅行”概念的知识图谱,阿布拉什说。“简而言之,它是一组概念和类别,以及它们的属性和它们之间的关系,无论你想要什么程度,它都可以塑造你的生活,它可以随时浮出与你个人和背景相关的信息,”阿布拉什说,“简而言之,它是一组概念和类别,以及它们之间的关系,无论你想要什么程度,它都可以模拟你的生活,它可以随时浮出与你个人和上下文相关的信息。”

如你所见,LiveMaps更像是一张你的生活地图。而且,它会根据你去哪里和做什么而不断更新。

LiveMaps中的内容层是使用AR眼镜上的摄像头、传感器和麦克风收集的关于您、您的习惯和您的关系的所有信息构建的。对于像Facebook这样没有保护人们隐私记录的公司来说,这是一个堆积如山的数据。但有了AR眼镜,Facebook可以提供一种基于所有这些数据的新的、不同的服务。所有这些信息都可以输入到强大的人工智能模型中,然后这些模型可以对你可能需要的信息或你在各种情况下可能想做的事情做出深入的推断。这使得个人数字助理成为可能,它比你现在拥有的任何助手都更了解你,以及你可能想要什么。

“这就像是。。。一个坐在你肩膀上的朋友,他可以从你自我中心的角度来看待你的生活,并帮助你,“阿布拉什说。“(它)从你的角度看待你的生活,所以突然之间,它就可以知道如果你试图帮助自己,你会知道的事情。”

对于AR眼镜来说,这样的助手可能是至关重要的。AR眼镜是免提的。你可以在做其他事情时佩戴它们,比如用手工作或与他人交谈。你不会有时间或注意力在许多菜单中导航,也不会有时间或精力向设备键入或说出明确的指令。

这意味着AR眼镜软件将不得不利用它所知道的关于你的信息,你现在正在做的事情,以及你正在做的事情的背景,来主动显示你可能需要的信息。阿布拉什举了一个眼睛跟踪摄像头的例子,它检测到你的眼睛停留在某一种汽车上的时间超过了一瞥。直观的兴趣和意图,眼镜软件可能会覆盖信息或图形,如关于其价格或燃油经济性的数据。

或者,它可能会提供一个简短的选项列表,代表对你当时可能需要的信息或你可能想要采取的行动的经过深思熟虑的猜测。然后,你可以用眼睛通过眼球跟踪器扫一眼,或者更好的是,通过肌电手镯抓到手指的抽搐来进行快速选择。

“肌电图真的是理想的AR核心输入,因为它可以是完全低摩擦的,”Abrash说。“你戴着这个东西,你所要做的就是转动一根手指一毫米。”

这样的助手还会了解你的习惯、品味和选择,甚至知道你在某些社交场合是如何与人互动的,这会进一步告诉你它主动展示的细节或建议的选项。阿布拉什说,助手甚至可能会问你对它问你的问题或提出的选择有什么看法。这些问题也可以通过非常快速的输入来回答。

阿布拉什说:“所以,你现在是在循环中,在那里你可以用非常低的摩擦力训练它。”“而且,由于互动更加频繁,你和助理都可以更好地合作,这真的是可以发生的。”

阿布拉什说,因为眼镜可以全天看到、记录和理解你看到的和做的事情,所以它可以为人工智能助手提供更多、更好的数据,而不是把大部分时间花在你口袋里的智能手机。他说,这是AR眼镜的一个方面,使它们处于与智能手机完全不同的模式。

这可能会在生产力和便利性方面带来强大的红利,但在LiveMaps中收集的关于您和您的生活的丰富数据存储在Facebook的某个服务器上。Facebook的业务是将个人数据货币化。

Facebook表示,它今天捕获的个人数据有助于它将你在社交网络上的体验个性化。但它收集这些数据的真正原因是,它对你有足够的了解,可以让你符合广告商可以瞄准的狭义受众。AR眼镜上的传感器、麦克风和摄像头可能会让Facebook更精致地了解你是谁,你可能会买什么。甚至在你意识到之前,它可能就知道你想要某种产品或服务。

这就是为什么我向Facebook Reality Labs副总裁兼负责人安德鲁·博斯沃思(Andrew Bosworth)询问Facebook是否打算使用AR眼镜收集的高度详细的个人数据来定向广告,在Facebook.com上还是在眼镜内。他说,公司还没有开始考虑这个问题。

Facebook在构建将存储这些丰富数据的在线地图结构方面仍有很多需要学习的地方。Abrash说,这一切都是关于学习如何对世界进行映射和索引,以及“在此基础上建立语义,开始理解你周围的对象”。

他补充说,“为了能够为LiveMaps构建功能,(我们需要)确切地了解我们需要保留什么,这有多难,世界正在发生什么样的变化。(我们需要)确切地了解我们需要保留什么,这有多难,世界正在发生什么样的变化。”(我们需要)确切地了解我们需要保留什么,这有多难。。。以及我们如何进行同步并使其保持最新。“。

这就是为什么大约100名Facebook员工很快就会在工作、家里、旧金山湾区和西雅图的公共场合佩戴增强现实研究眼镜的部分原因。Facebook表示,这款眼镜没有显示屏,而且不是未来产品的原型。参与“咏叹调计划”的员工将使用他们的测试眼镜,从佩戴者的角度捕捉视频和音频,同时从追踪佩戴者眼睛走向的眼镜中的传感器收集数据。

博斯沃思说:“我们只需要把它从实验室里拿出来,让它进入现实世界的条件,从(了解)光的角度,从天气的角度,开始观察这些数据是什么样子,并以帮助我们告知(我们的产品)为长期目标,”博斯沃思说。

这些数据也是为了帮助工程师们弄清楚LiveMaps如何实现他们想要的那种AR体验,而不需要AR设备本身的大量计算能力。

Facebook正在从头开始创建实时地图。目前没有数据可以告知或个性化任何AR体验。最终,填充LiveMaps三层的数据将从用户那里众包,并将严格控制这些数据的哪些部分是公开的,哪些是用户私有的,以及用户可以选择与其他人(如朋友和家人)共享哪些部分。但就目前而言,这取决于Facebook开始生成一组基本的数据来处理。

阿布拉什说:“一开始,必须有[专业的]数据采集来引导这样的东西。”“因为这是一个鸡和蛋的问题.”换句话说,Facebook必须从收集足够的地图和索引数据开始这一过程,为用户创造更好的初始体验。没有这些,就没有用户开始为构成LiveMaps的数据做出贡献。

阿布拉什说:“一旦人们戴上了这些眼镜,众包就必须成为这项工作的主要方式,没有其他方式可以扩大规模。”

谈到硬件,在一副时尚的AR眼镜成为可能之前,一些根本性的问题还需要解决。

阿布拉什说,硬件中最大的挑战可能是构建一种显示系统,该系统可以实现令人惊叹的3D图形,同时重量很轻,只需要少量的电力。他指出,它必须有足够的亮度和对比度来显示图形,才能与来自外部世界的自然光竞争。它还必须有足够宽的视野来覆盖用户的大部分或全部视野,这是现有的AR耳机或眼镜还没有看到的。

阿布拉什在谈到目前市场上的AR耳机时说:“你现在看到的是这个小方孔。”这些耳机大多用于企业应用。“它不会让你有身处一个有虚拟物体的世界的感觉。”

让AR眼镜发挥作用所需的组件数量之多,很难挤进一个你不介意整天佩戴的设计中。这包括精确定位您的物理位置的摄像头,跟踪眼睛运动以查看您正在观看的内容的摄像头,足够大的显示器以覆盖整个视野,为显示器供电的处理器和识别对象的计算机视觉AI,以及小型而高效的电源。涉及的处理器也会在头部产生大量热量,目前还没有足够轻和高效的冷却机制来冷却一切。

每个正在研究一副真正的AR眼镜的人都在努力寻找克服这些挑战的方法。一种方法可能是将部分处理能力和电源分流到外部设备,如智能手机。

.