Docugami的了解文档的新模型将其牙齿切断了美国宇航局档案馆

2021-04-13 03:25:44

如果Docugami的产品按计划工作,则任何人都可以占据多年来累积的文件,并近乎立即将它们转换为实际对人民的数据。

因为事实证明,任何关于任何业务的运行最终都会产生一大吨文件。在营销,医疗图表等的房地产,提案和发布中的法律工作,租赁和签名的合同和简报,更不用说各种格式:Word Docs,PDF,从Word Doc导出的PDF的纸张打印输出扫描,等等。

在过去十年中,一直努力腐蚀这个问题,但是在组织方面的运动很大程度上是:将所有文件放在一个地方,分享并协同编辑它们。了解文档本身已经留给处理它们的人,以及充分理由 - 了解文件很难!

想到租赁合同。我们人类明白当租房者被命名为吉尔杰克逊,后来,“租房”也指的是那个人。此外,在另外一百名合同中,我们了解这些文件中的租房者在文件的背景下是相同的人或概念,但不是相同的实际人。这些是机器学习和自然语言理解系统掌握和应用的令人惊讶的困难概念。然而,如果他们可以掌握,可以从围绕世界各地的数百万个文件中提取大量有用信息。

Docugami创始人Jean Paoli说他们已经破解了宽敞的问题,而这是一个主要索赔,他是可以可靠地制作它的少数人之一。 Paoli几十年来是微软的一个重要人物,其中包括有助于创建XML格式 - 您知道所有这些以X结尾的文件,如.docx和.xlsx? Paoli至少部分感谢他们。

“数据和文件不一样,”他告诉我。 “有一件事你理解,称为文件,以及计算机的理解,称为数据。为什么他们不一样?所以我的第一份工作[在Microsoft]是创建一种可以将文档作为数据表示的格式。我在行业中与朋友创建了XML,并接受了比尔。“ (是的,那条账单。)

这种格式普遍存在,但20年后,同样的问题仍然存在,持续增长与行业后行业的数字化。但对于paoli,解决方案是相同的。在XML的核心上是一个想法,文档应该构造几乎像网页:框内的框,每个框,每个都由元数据清晰定义 - 计算机更容易理解的分层模型。

“几年前,我喝了AI Kool-Aid,让想法将文档转换为数据。我需要一种导航分层模型的算法,他们告诉我所需的算法不存在,“他解释说。 “XML模型,每件部分在另一部分中,每个都有一个不同的名称来表示它包含的数据 - 这没有与我们今天的AI型号结婚。这只是一个事实。我希望Ai人们会去跳跃,但它没有发生。“ (“我正忙着做别的事情,”他补充说,借口自己。)

与这种新的计算模式缺乏兼容性不应令人惊讶 - 每种新兴技术都带有某些假设和局限性,而且AI侧重于其他一些同样至关重要的领域,如语音理解和计算机视觉。采取的方法与系统理解文档的需求不符。

“很多人认为文件就像猫。你训练AI寻找他们的眼睛,为他们的尾巴......文件不像猫,“他说。

它听起来很明显,但它是一个实际限制:高级AI方法,如分割,场景理解,多模态背景,也是一种超级高级猫检测,它已经超越了猫以检测狗,汽车类型,面部表情,位置等等文件与彼此过于差异,或者以其他方式过于相似,对于这些方法来说,这些方法比大致分类它们。

至于语言理解,在某种程度上很好,但不需要帕罗尼所需的方式。 “他们正在努力用英语语言水平,”他说。 “他们看着文字,但他们从他们找到它的文件中断开连接。我喜欢NLP的人,一半的团队是NLP人 - 但是NLP人们不会考虑业务流程。您需要将它们与XML人混合,了解计算机愿景的人,然后您开始在不同的级别查看文档。“

通过调整现有工具(超出了Mathing Charmy识别等成熟原语),无法达到Paoli的目标,因此他组装了自己的私人AI实验室,其中一支多学科团队一直在修补约两年。

“我们做了核心科学,以隐形模式为自我资助,我们向专利局发出了一堆专利,”他说。 “然后我们去看VCS,并且信号火焰基本上是自愿的,以达到1000万美元的种子。”

覆盖的圆形并没有真正进入使用Docugami的实际经验,但Paoli通过一些现场文件来通过平台走过我。我没有获得自己的访问,公司不会提供截图或视频,称它仍然正在研究整合和UI,所以你必须使用你的想象力......但是如果你想象的那样,那么任何企业萨斯服务,你在那里的90%。

作为用户,您将任意数量的文档上传到Docugami,从几十岁到数百或数千个。这些输入机器了解工作流程,解析文档,无论是扫描PDF,Word文件还是其他内容的XML-ESQUE分层组织。

“说你有500个文件,我们尝试将其归类为文档集,这30个看起来相同,那20看起来也是如此,那么那5在一起。我们将它们与文档所看到的一组提示进行了组合,我们认为是人们在讨论的是,我们认为是什么,“Paoli说。其他服务可能能够讲述租约和NDA之间的区别,但文件太多了,无法插入预先接受过的类别的类别思想并期望它锻炼身体。每组文件都是独一无二的,所以Docugami每次都会重新列举,即使是一套。 “一旦我们分组它们,我们就可以了解那些特定文件集的整体结构和层次,因为这就是文件如何变得有用:在一起。”

这不仅仅意味着它在标题文本上拾取并创建索引,或者允许您搜索单词。文档中的数据例如是谁支付谁,谁以及在什么条件下,在类似文档的上下文中变得结构化和可编辑的。 (它要求一些输入来仔细检查它推断的内容。)

它可能有点难过,但现在只是想象你想把一份关于贵公司的主动贷款的报告放在一起。您需要做的就是突出显示在示例文档中对您重要的信息 - 字面上,您只需点击他们发生的任何地方的“Jane Roe”和“$ 20,000”和“5年”,然后选择要拉的其他文档来自。的相应信息几秒钟后,您有一个有序的电子表格,名称,金额,日期,您希望从该组文档中脱颖而出。

所有这些数据都意味着也是便携式的,当然,在业务中有各种其他常见管道和服务的集成,允许自动报告,如果达到某些条件,则自动创建模板和标准文件(不再保留旧的一个旧的一个凸起的原则去的地方)。

请记住,在第一位上传它们后,全部半小时,无需标记或预处理或清洁。而且AI不适用于一些预先的概念或格式的租赁文件的样子。从你上传的实际文档中学习了所有它需要知道 - 它们是如何结构化的,在那里相对于彼此相对于姓名和日期数据,依此类推。它在垂直方面工作,并使用任何可以弄清楚几分钟的界面。无论您是在医疗保健数据进入还是施工合同管理中,该工具都应该有意义。

您摄取和创建新文档的Web界面是主要工具之一,而另一个生命在单词内。那里有Docugami作为一种助手,这完全了解您所在的任何类型的其他文件,因此您可以创建新的,填写标准信息,遵守法规等。

好的,所以加工法律文件不是世界上机器学习最令人兴奋的应用。但如果我不认为这是一个大问题,我就不会写这个(一切,更不用说这个长度)。这种深入的理解文档类型可以在这里以及与标准文档类型(如警察或医疗报告)中的建立行业中找到,但在有人为您的皮划艇租赁服务列入定制型号之前等待乐趣等待。但小型企业锁定在众多企业中的价值就像锁定在一起 - 他们不能雇用一支数据科学家团队。即使是大型组织也不能手动完成。

问题非常困难,但人类似乎几乎微不足道。您或者我可以通过20个类似的文档和一个名称列表和数量轻松列出,也许即使在更短的时间内,也许是Docugami爬行它们并训练自己。

但是,毕竟,AI旨在模仿和擅长人类的能力,并且客户经理有一件事是在20个合约上进行每月报告的一件事 - 这是另一个关于一千个报告。然而,Docugami同样容易完成后者和前者 - 这是它适合企业系统的地方,其中缩放这种操作至关重要,并且向美国国家航空航天局埋葬在它希望收集到收集的文档的积压下埋葬和见解。

如果有一件事NASA有很多,它的文件。它相当良好维护的档案返回其成立,许多重要的方法可以通过各种手段提供 - 我花了许多令人愉快的时间纪念其历史文件的缓存。

但美国国家航空航天局并没有寻找进入阿波罗11的新见解。通过其许多过去和目前的计划,征集,授予方案,预算和当然的工程项目,它毕竟产生了大量的文件。一部分联邦官僚机构。与任何大型组织一样多于几十年来,美国国家航空航天局的文件藏代表未开发的潜力。

专家意见,研究前兆,工程解决方案以及十几类重要信息坐在文件中,这些文件可能是由基本单词匹配而无法进行的文件,但否则是非结构化的。对于JPL来看,在他们的头脑中展示喷嘴设计的演变,并且在几分钟内有一个完整和当前的文件列表,在该主题中有一个完整的和当前的文件列表,按类型,日期,作者组织,和地位?关于需要提供现有技术的NIC授权接受者信息的专利顾问呢 - 不应该将这些旧专利和应用程序提取比任何特定的关键字更具体吗?

去年夏天获得的美国国家航空航天局SBIR Grant不是针对任何特定的工作,如收集来自约翰逊航天中心或其他东西的所有文件和这种类型的文件。这是一个探索性或调查协议,正如许多这些补助金一样,Docugami正在与美国宇航局的科学家合作,以将技术应用于档案的最佳方式。 (最佳申请之一可能是SBIR和其他小型企业融资计划本身。)

另一个与NSF的SBIR授权不同,而在美国国家航空航天局则展望在NSF中展望了更好地组织多种不同类型的文档,在NSF,他们旨在更好地识别“小数据”。 “我们正在寻找微小的东西,微小的细节,”Paoli说。 “例如,如果您有名称,是贷方还是借款人?医生或患者的名字?阅读患者记录时,提到了青霉素,是规定还是禁止?如果有一个名为过敏和另一个被称为处方的部分,我们可以制作这种连接。“

当我指出所涉及的SBIR拨款时的相当小预算以及他的公司如何在这些中幸存下来,他笑了。

“哦,我们不在赠款!这不是我们的业务。对我来说,这是一种与科学家合作的一种方式,拥有世界上最好的实验室,“他说,同时注意到更多的拨款项目是在下来的。 “对我来说是燃料。商业模式非常简单 - 您订阅的服务,如DocuSign或Dropbox。“

该公司刚刚刚刚开始其实际业务运营,与集成伙伴和测试人员进行了一些联系。但在明年,它将扩大其私人测试版,并最终打开它 - 虽然还没有时间线。

“我们很年轻。一年前,我们就像五,六个人,现在我们去了这个10米的种子圆形和繁荣,“Paoli说。但他确信这是一个不仅仅是有利可图的企业,而且会代表公司如何工作的重要变化。

“人们喜欢文件。也许是因为我是法国人,“他说,”但我认为文字和书籍和写作是至关重要的 - 这只是人类的工作。我们真的认为人们可以帮助机器更好地思考,机器可以帮助人们更好地思考。“