亚马逊推出新的Alexa开发工具

2020-07-23 00:25:11

该公司Alexa Devices&;Developer Technologies副总裁内迪姆·弗雷斯科(Nedim Fresko)告诉我:“今年,考虑到我们的势头,我们真的想关注开发者真正需要什么,才能把我们带到(与Alexa)互动真正意味着什么的下一个水平,”该公司Alexa Devices&;Developer Technologies副总裁内迪姆·弗雷斯科(Nedim Fresko)告诉我。

也许这就不足为奇了,此次发布的亮点之一是Alexa Conversations的测试版发布,该公司在去年的Re:Mars峰会上首次展示了这一功能。顾名思义,这里的总体想法是让用户更容易与Alexa设备进行自然的对话。正如弗雷斯科指出的那样,这是一个非常艰巨的技术挑战。

Fresko说:“我们观察到,消费者真的想以一种自然的方式与Alexa交谈。”“但是用传统的技术,实现自然是非常困难的。准备随意的措辞,记住上下文,传递上下文,处理信息的供应过剩或供应不足-这是难以置信的困难。如果你把它放在一种方式上,创建一个状态图,你就会陷入困境,你必须停止。然后,人们就会满足于“好吧,好吧,我就做机器人指令吧”,而不是做所有这些事情。打破这一循环的唯一方法是有一个巨大的飞跃,以及实现这一点所需的技术,这样熟练的开发人员才能真正专注于对他们来说重要的事情。“。

对于开发人员来说,这意味着他们可以使用该服务来创建示例短语,对其进行注释,并提供访问API以供Alexa调用。然后,该服务推断对话可以采取的所有路径并使其工作,而无需开发人员指定他们的技能可以使对话采取的所有可能的转折。在很多方面,这使得它类似于Google的Dialogflow工具,尽管Google Cloud的重点更多地放在企业用例上。

哲学创造的创始人史蒂文·阿科诺维奇在今天的声明中说:“Alexa Conversations有望成为开发者的一个突破,并将为客户创造极好的新体验。”“我们用Alexa对话更新了大天空技能,现在用户可以更自然地说话,并在交谈中改变主意。Alexa的人工智能一直在跟踪它,我的技能代码只需要很少的输入。“。

根据Fresko的说法,对于一部分开发人员(目前约有400人),该团队还将启用一个新的深度神经网络来提高Alexa的自然语言理解能力。该公司表示,这将使获得这一信息的技能的准确性提高约15%。

Fresko解释说:“这个想法是为了让开发人员在不采取任何行动的情况下,只需改变底层技术,使我们的模型更加复杂,就能提高所有技能的准确性。”

另一个可能会得到开发者大量关注的新功能是Alexa for Apps。这里的想法是让移动开发者能够将他们的用户从Alexa上的技能转移到他们的移动应用程序上。例如,对于Twitter来说,这可能意味着说“Alexa,要求Twitter搜索#BLM”,然后Twitter技能就可以打开移动应用程序。毕竟,对于一些搜索来说,在屏幕和移动应用程序中看到结果比听大声朗读要有意义得多。此功能现在处于预览阶段。

另一个新功能是技能恢复,现在可以预览美国英语,它基本上允许开发人员将他们的技能放在后台,然后根据需要提供更新。例如,这对拼车应用程序很有用,它可以向用户提供他们的汽车何时到达的更新。这类主动通知是所有助手平台都开始尝试的,尽管到目前为止,大多数用户在日常使用中可能只看到了几个这样的通知。

该团队还将推出两个新功能,帮助开发人员让潜在用户发现他们的技能。这仍然是所有语音平台的一个主要问题,可能也是为什么大多数人只使用他们目前可用的一小部分技能的原因之一。

第一个发布的是Alexa的Quick Links测试版,现在是针对美国英语和美国西班牙语的测试版,它允许开发者从他们的移动应用程序、网站或广告创建链接到一个新的用户界面,允许他们在设备上展示他们的技能。“我们认为这将真正帮助人们变得更容易接近,更受认可,”弗雷斯科说。

此存储桶中的第二个新功能是无名称交互工具包,现在正在预览中。Alexa已经有能力在系统认为给定技能可以为给定问题提供最佳答案时启动第三方技能。现在,有了这个新系统,开发人员可以指定最多五个建议的启动短语(想想“Alexa,下一趟去宾夕法尼亚车站的火车是什么时候?”)。亚马逊表示,一些早期预览用户在采用该工具后,与其技能的互动增加了约15%,但该公司很快指出,每种技能的互动情况都不同。

在其他更新中,有一些新功能是为想要构建游戏和其他更具交互性的体验的开发人员提供的。这里的新功能包括用于音频测试的APL,它提供了在运行时混合语音、音效和音乐的工具;Alexa Web API for Games,帮助开发者使用HTML5、WebGL和Web Audio等网络技术为Alexa设备构建带屏幕的游戏;以及APL 1.4,它现在为公司的标记语言增加了可编辑的文本框、拖放UI控件及更多功能,用于增强视觉技能。