微软详细介绍了其新的图片字幕AI,这是Azure的一部分,将改善Word、Outlook和其他应用程序的可访问性

2020-10-14 23:58:55

微软开发了一种新的图像字幕算法,在某些有限的测试中超过了人类的精确度。AI系统已经被用来更新该公司为视障人士提供的助手应用程序,Seing AI,并将很快被整合到其他微软产品中,如Word,Outlook和PowerPoint。在那里,它将用于创建图像的Alt-Text之类的任务-这一功能对于提高可访问性特别重要。

微软人工智能团队的软件工程经理萨奇布·谢赫(Saqib Shaikh)在一份新闻声明中表示:“理想情况下,每个人都会在文档、网络和社交媒体上为所有图像添加Alt文本-因为这使得盲人能够访问内容并参与对话。”“但是,遗憾的是,人们不这样做。所以,有几个应用程序使用图像字幕作为替代文本缺失时的填充方式。”

这些应用程序包括微软自己的Seing AI,该公司于2017年首次发布了这款应用。Seing AI使用计算机视觉为视障人士描述通过智能手机摄像头看到的世界。它可以识别家居用品、阅读和扫描文本、描述场景,甚至可以识别朋友。它还可以用来描述其他应用程序中的图像,包括电子邮件客户端、社交媒体应用程序和WhatsApp等即时通讯应用程序。

微软没有透露看到人工智能的用户数量,但Azure AI公司副总裁埃里克·博伊德(Eric Boyd)告诉The Verge,这款软件是“针对盲人或视力低下的人的领先应用程序之一。”看见人工智能连续三年被AppleVis评为最佳应用或最佳辅助应用,AppleVis是一个由盲人和低视力iOS用户组成的社区。

微软新的图像字幕算法将显著提高观看人工智能的性能,因为它不仅能够识别对象,还能够更准确地描述它们之间的关系。因此,算法可以查看图片,不仅可以说它包含什么项目和对象(例如,“一个人、一个椅子、一个手风琴”),而且可以说它们是如何交互的(例如,“一个人正坐在椅子上演奏手风琴”)。微软表示,该算法是其自2015年开始使用的之前图像字幕系统的两倍。

该算法在9月份出版的一篇印刷前论文中进行了描述,在被称为“nocaps”的图像字幕基准测试中获得了有史以来最高的分数。这是业界领先的图像字幕记分牌,尽管它有自己的限制。

Nocaps基准由166,000多个人工生成的字幕组成,描述了从Open Images数据集中拍摄的大约15,100张图像。这些图像跨越了一系列场景,从体育到假日快照,再到食物摄影等等。(您可以通过浏览此处的nocaps数据集或查看下面的图库来了解图片和字幕的混合情况。)。算法在为这些图片创建与人类图片相匹配的字幕的能力上进行了测试。

但是,需要注意的是,nocaps基准测试作为一般任务只捕获了图像字幕复杂性的一小部分。尽管微软在一份新闻稿中声称它的新算法“描述图像和人一样好”,但只有当它适用于nocaps中包含的一小部分图像时才是正确的。

“在nocaps上超过人的表现并不能说明图像字幕是一个解决问题的指标。”

正如该基准的创建者之一Harsh Agrawal通过电子邮件告诉The Verge:“在nocaps上超过人类的表现并不能说明图片字幕就是一个解决的问题。”阿加瓦尔指出,用于评估nocaps性能的指标“仅与人的喜好大致相关”,基准本身“只覆盖了所有可能的视觉概念中的一小部分”。

阿加瓦尔说:“与大多数基准一样,nocaps基准只是模型在这项任务上表现的一个粗略指标。”“在nocaps上超越人类的表现并不意味着人工智能系统在图像理解方面超越人类。”

这个问题-假设特定基准的性能可以推断为更一般的底层任务性能-在夸大人工智能的能力时是一个常见的问题。事实上,微软过去曾因对其算法理解书面文字的能力做出类似的断言而受到研究人员的批评。

然而,由于人工智能,图像字幕是一项近年来有了巨大改进的任务,微软的算法肯定是最先进的。除了集成到Word、Outlook和PowerPoint中,图像字幕AI还将通过微软的云和AI平台Azure作为独立模型提供。