人工智能助手可用性差:对Alexa、Google Assistant和Siri的研究

2020-08-30 10:06:10

23摘要:可用性测试发现,仅语音和基于屏幕的智能助手都只适用于非常有限、简单的查询,这些查询的答案相当简单、简短。用户在任何其他方面都有困难。

可用性的圣杯是构建一个零交互成本的界面:能够满足用户的需求,而不需要他们做任何事情。虽然界面设计还远远没有读懂人们的想法,但Alexa、谷歌助手和Siri等智能助手就是朝着这个方向迈出的一步。

自然语言理解:用户不限于使用特定的、计算机优化的词汇或语法,而是可以用多种方式组织他们的输入,就像他们在人类对话中所做的那样。

语音输出:助手不在屏幕上显示信息,而是大声朗读。

智能解释:除了用户的文字输入之外,助手还利用附加信息(如上下文或过去的行为)来估计用户想要什么。

代理:助手执行用户未请求但计算机自行执行的操作。

智能解释和代理都要求助理主动了解用户,并能够修改他们在为用户服务时的行为。

因此,在评估智能助手的用户体验时,我们需要考虑6个问题:5种技术中的每一种,加上它们的集成。

集成一系列UI技术的想法并不新鲜。在最流行的图形用户界面(GUI)风格背后也有同样的原理,它被称为wimp,意为“窗口-图标-菜单-定点设备(windows-icons-menus-pointing device)”。你可以在没有鼠标的情况下使用窗口(使用Alt-Tab组合键),也可以在没有图标的情况下使用鼠标(点击单词),但是全套功能会生成一个完美集成的GUI,它已经提供了30多年的良好可用性。

并非所有助理都始终使用全部5种UI技术:例如,如果屏幕可用,助理可能会使用视觉输出而不是语音输出。然而,当这5种技术顺利集成时,它们是相互支持和增强的。例如,与点击相比,语音命令与传统的基于命令的交互方式一样,具有固有的可用性弱点(它们依赖于一定数量的回忆,而点击和直接操作涉及识别),但自然语言可能会使编写命令的难度低于单击图标。

它可以使物理接口短路,只允许用户用自然语言表达他们的目标。尽管演讲确实涉及交互成本,但从理论上讲,这一成本比学习新的UI、按下按钮和做出选择要小。

它可以根据上下文信息或先前的用户行为提供适当的建议,从而推断用户的目标并积极主动地实现这些目标。这第二个方面其实更接近于“读心术”。

如今的助手对上下文的建议仍然相当有限,尽管朝着这个方向迈出了很小的一步--谷歌助手解析电子邮件,并将航班或餐厅预订添加到日历中;Siri和谷歌助手都警告用户,一旦离开某个地点,到达经常去的目的地需要花费的时间。当这些上下文建议合适时,它们会无缝地使用户朝着他们的目标前进。

为了更好地了解这些助手如今带来了什么挑战,以及它们在哪里帮助了用户,我们进行了两项可用性研究(一项在纽约市,另一项在旧金山湾区)。共有17名参与者-5名在纽约,12名在加州-他们至少是一种主要智能助手(Alexa、Google Assistant和Siri)的经常用户,他们被邀请到实验室进行单独的会话。每次会议都包括可用性测试(参与者使用Alexa、Google Assistant或Siri完成辅导员分配的任务)和面试。

在研究的可用性测试部分,我们要求参与者使用助手完成各种任务,从简单的(例如,7月4日周末的天气,乔治·克鲁尼(George Clooney)出生时附近沃尔格林(Walgreens)的药房工作时间)到更复杂的(例如,斯坦利·库布里克(Stanley Kurick)倒数第二部电影制作的那一年,周末去摩斯海滩的交通)。

本文总结了我们的主要发现。第二篇文章将讨论与智能助手交互的社交层面。

我们的用户研究发现,目前的智能助手在所有6个问题(5项技术和集成)上都失败了,导致总体可用性水平对于即使是稍微复杂的交互也近乎无用。对于简单的交互,设备确实满足最低可用性要求。尽管它违背了以人为中心的设计的基本前提,但用户必须训练自己,让自己了解智能助手什么时候会有用,什么时候最好避免使用它。

我们的思想一直是计算机应该适应人类,而不是反过来。人工智能的承诺恰恰是高度适应性的,但我们在观察实际使用时没有看到这一点。相比之下,观察用户在人工智能界面上的挣扎感觉就像回到了20世纪70年代的黑暗时代:需要记住晦涩的命令、压抑的模式、令人困惑的内容、僵化的交互-基本上是一种不愉快的用户体验。

让我们来看看这6种UI技术中的每一种,并评估它们实现对用户承诺的程度。虽然这个问题的答案令人难过,但我们也可以问,当前的弱点是这些技术固有的并将继续存在,还是由当前的技术限制造成并将会改进。

多子句不能理解;等价的查询公式会产生不同的结果。人们对代词所指的理解是有限的。

除了少数任务(例如,导航、天气)之外,助手不能一致地对查询产生令人满意的语音响应。

助理使用简单的上下文信息,如当前位置、联系数据或过去经常出现的位置,但很少超出这些范围。

只有非常有限的使用外部信息源(例如日历或电子邮件)来推断用户感兴趣的潜在动作。

助手与设备上其他可用的应用程序不能很好地协同工作,与各种“技能”或“动作”的交互也没有利用所有的UI技术。

我们是否不可理喻呢?近年来,基于人工智能的用户界面不是取得了巨大的进步吗?是的,目前的人工智能产品比过去几十年的许多人工智能研究系统都要好。但普通人对日常使用的要求远远高于研究生演示的要求。我们在20年前的学术会议上看到的演示令人印象深刻,并为基于人工智能的交互带来了巨大的希望。现在的产品是好的,但没有兑现诺言。

承诺仍然存在,人们已经从他们的智能助手中获得了一些用途。但是,这种交互方式需要巨大的进步才能以高可用性支持更广泛的使用。一个类比就是移动设备的开发方式:当我们在2000年测试移动可用性时,结果糟糕透顶。然而,移动信息服务的前景是明确的,许多人已经大量使用了一种特别有用的低端服务:人对人的短信。经过多年的技术进步和更紧密的UI集成,第一款像样的智能手机才发货,导致到2009年移动可用性达到可以接受的水平,尽管水平仍然很低。又经过十年的改进,移动用户界面现在已经相当不错了。

基于人工智能的用户界面可能比2000年的移动可用性稍好一些,但也好不到哪里去。是否需要20年时间才能达到良好的AI可用性?一些需要解决的问题非常棘手,这甚至可能是一个乐观的评估。但是就像使用移动设备一样,基于人工智能的用户界面的好处也足够大,即使是半途而废(也就是说,可用性不错,但可用性不好)也可能是可以接受的,而且可能会更快地触手可及。

我们的大多数用户报告说,他们在两种情况下使用智能助理:

第二种情况值得讨论。大多数人对助手能做什么有明确的期望,并经常说他们不会使用助手来满足复杂的信息需求。他们认为,一个答案明确的问题很有可能被助手正确回答,两名参与者明确提到了5W1H(谁,什么,哪里,何时,为什么,如何)的问题。相比之下,通过网络搜索或与手机或平板电脑等基于屏幕的设备进行其他互动,可以更好地满足更细微的、类似研究的信息需求。

然而,一些人认为,只要问对了问题,助手们甚至可以完成复杂的任务。一位用户说:“我可以用Siri在手机上做我能做的一切。[…]。复杂的问题--我必须简化这些问题,才能使它们发挥作用。“。

然而,大多数人认为思考正确的问题是不值得付出努力的。正如一位用户所说,“Alexa就像一个外星人--我必须向它解释所有的事情…。它只适用于简单的查询。我得把一切都告诉她。我喜欢简单地问问题,而不是考虑(如何制定问题)。“。

语音助理节省交互成本的一个值得注意的领域是口述:长消息或搜索查询比打字更容易说,特别是在移动设备上,那里的小键盘容易出错、速度慢且令人沮丧。参与者通常很快就会注意到,当他们不容易打字时(例如,因为他们在走路、开车、做饭,或者只是远离有真正键盘的设备),听写是不完美的,而且当文本使用了可能被错误翻译的独特术语时,他们会避免听写。他们还提到了让助手插入正确的标点符号的困难(如果用户停顿下来表示句子结尾,助手会停止倾听,或者助手会干脆完全忽略标点符号,要求用户校对和编辑文本)。

当参与者花时间考虑如何制定查询,然后以连续的流程将其交付给助手时,助手通常能够解析整个查询。正如一位用户所说,“在你问问题之前,你应该想一想--因为当你对(助手)说问题的时候,很难解决这个问题。你只需要事先想一想,因为这不像一个人在与他们交谈时(你可以含糊其辞)。“。另一位网友说:“我问问题的时候几乎感觉自己像个机器人,因为我必须用一种如此清晰、简洁的方式来表达,而且我必须把它想得那么清楚。当我试图发出命令或问一个具体问题时,你不会用太多的词尾变化。它真的只是识别单词,而不是识别你声音中的情感。“。

但许多参与者在完整表达查询之前就开始发言(就像你通常对人所做的那样),偶尔会暂停搜索最佳单词。这样的停顿在谈话中是很自然的,但助手们没有正确解读,经常急于做出回应。当然,对这类不完整问题的回答大多数时候都是错误的,总体效果令人不快:参与者抱怨他们被打断了,或者助手“超过了他们的谈话”,或者助手“粗鲁无礼”。有些人甚至为此明确地斥责了这位助理(“Alexa,这太无礼了!”)。

当人们需要重述一个没有被正确理解的问题时,他们通常会以一种高度夸张的方式发音(就像他们在和一个听力障碍的人说话一样)。

大多数参与者认为,复杂的、多句的句子(比如“如果我想避开交通,周六我应该什么时候出发去莫斯海滩?”或者“查找今天下午4点55分从伦敦飞往温哥华的航班的航班状态”,助理们不太可能理解。一些人试图将这样的句子分解成多个查询。例如,一位想知道库布里克的倒数第二部电影是什么时候拍摄的参与者向库布里克索要了一份库布里克的电影清单,然后计划询问关于该清单中倒数第二项的问题。不幸的是,Siri根本帮不上忙,因为它只是提供了库布里克电影的一个子集,没有明显的顺序。

有几个人有外国口音,他们觉得助理并不总是听懂他们的话,不得不经常重复自己的话。这些人感到沮丧,认为助手们必须学会处理各种语言和说话方式。

他们可能比以英语为母语的人在讲话中停顿的时间更多。助理通常将这些停顿解释为查询结束。

当他们觉得自己念错了一个词,结果同一个词说了两次时,他们往往会改正自己。这些重复的话似乎让助手们感到困惑,尤其是亚历克莎。

他们有时使用不太常用的措辞。例如,一位与会者问道:“亚历克萨,英国足球队是什么时候参加足球锦标赛的?”亚历克萨找不到这个问题的答案。

幸运的是,口音理解是一个计算机有潜力超越现实的领域:它们可以比人类更好地识别非标准发音的单词。计算机不在乎你如何发音--除非它被训练成只识别一个特定的声音,否则它可以理解几个不同的声音都代表同一个单词。因此,我们预计更好的口音识别只是个时间问题。处理本节中讨论的其他问题将更加困难。

一些参与者抱怨助理说得太快,没有办法让它重复回答。特别是当答案太长或太复杂时,参与者无法将所有信息都记入他们的工作记忆中。例如,在提供抵押贷款报价之前,Alexa Lending Tree技能要求用户通过背诵地址和抵押贷款条款,然后根据需要列举一组用于编辑信息的命令来确认输入的所有详细信息都是正确的。一位用户说:“它最后说得太快了--[它说]‘如果有什么不对劲,(你必须)去bla’;要记住所有的选项实在太难了。”

当助手们误解了问题并提供了不正确的回答时,这种经历令人不快和恼火。人们憎恨不得不等待一个完全不相关的冗长答案,并努力在对话中插入“Alexa,Stop”。一位参与者解释说:“我不喜欢的是,当我开始和[Alexa]说话时,她不会闭嘴。这才是更人性化的互动。[…]。如果它能与‘Alexa,Stop’以外的东西交互,那将是最理想的-比如‘OK’,或者‘Enough’,或者几乎任何我咕哝的东西[…]。这就像是和一个喋喋不休的人谈话,你在等着找到一个停顿,这样你就能以某种方式阻止他们。“。

但即使是一些正确的助理回答也太冗长了。一位用户抱怨说,当她试图将商品添加到杂货单中时,Alexa在每次添加商品后都确认“<;Item>;Added to杂货单”。对于这样一项重复的任务来说,我觉得话太多了。另一位用户称谷歌助手在向查询药店营业时间提供额外信息时“太唠叨了”。当Alexa读到提拉米苏食谱列表中每个食谱的长篇描述时,一名参与者翻了翻眼睛,其中包括(一些)相当明显和重复的配料-比如鸡蛋。

智能助手的主要用途之一是在汽车、厨房或其他类似情况下免提使用。我们的用户认为,在绝大多数情况下,声音回答优于屏幕回答。(例外情况包括答案包含敏感信息的情况-例如,一名女性对大声读出她的医生预约感到不满,她说“我宁愿它说‘事件’这个词。”)。

大多数智能扬声器没有屏幕,因此它们必须以语音格式传达答案。这一限制使得一些参与者更喜欢扬声器,而不是基于电话的参与者,因为在电话中,混合模式的互动感觉更乏味。

当手机助手没有现成的答案时,他们通常会推迟搜索结果,迫使用户与屏幕互动。当人们不得不用眼睛和手指浏览结果列表时,他们感到失望。他们评论说,“它没有给我正确的答案。它给了我一篇文章和链接。它没有告诉我我问了什么,“和”我有点希望它不会只给我显示一些链接…。[至少它]应该告诉我一些事情…。然后,也许‘如果你想要更多,检查一下这个或那个。’“。

当正确的答案被读出时,“感觉就像变魔术了。”一位参与者问谷歌助手“我应该在布拉格呆几天?”,回答响亮而清晰:“根据Quora的说法,理想情况下你应该在布拉格呆3-4天[…]。.“。这位用户说,“这就是我在其他人身上寻找的东西;它大声地向我读出信息,而且还显示了这些信息。”这些类型的体验被我们的参与者认为是最有帮助的,但在我们的研究中很少见:尽管这项任务由几个参与者完成,但只有一个人使用了“正确”的提问方式,产生了清晰的口头答案;其他六个人尝试了同一问题的不同版本(“好的谷歌,你认为在布拉格度假的合适时间是多少”,“好的谷歌,我应该在布拉格度假多长时间”,“嘿Siri,去布拉格多少天足够”,“好的谷歌,在布拉格停留的合适时间是多少”,“Siri,我应该去布拉格几天?”,“Siri,如果我去布拉格,我应该去多长时间?”取而代之的是从Siri和谷歌助手获得了一组链接,除了最后一个查询,它提供的是布拉格周围的流量。

使用Siri,链接具有破坏性还有另一个原因:那些点击结果列表中的链接的人会被带到浏览器或其他应用程序,有些人不知道如何回到列表继续检查其他结果。一位苹果手机用户点击一家餐厅,在地图上看到它,然后试图返回其他餐厅;她说,“哦,不,(餐厅)消失了…。这是困扰我的一件事,我不知道如何检索Siri请求,你知道,一旦它说有一些东西你可能会发现有趣的…。例如,如果我开车,如果我真的想知道谁主演了这部电影,我可以说‘把它加到我的待办事项清单上’,或者我可以说‘查一查’,但我不会去看它,直到我到达目的地,当我到达目的地时,它已经消失了…。所以这份餐厅名单不见了,因为我碰了一下地图,所以我得再试一次。“。(如果用户点击屏幕左上角的Back-to-app iPhone按钮,本可以检索到餐厅列表,但该按钮很小,许多用户不熟悉它。然而,与其他智能助手相比,无法检索交互历史这一更普遍的点绝对是Siri的弱点。甚至Alexa也允许用户在Alexa移动应用程序中查看他们查询的历史记录。)。

转录用户查询的基于屏幕的助手引发了问题。

.