布局分析 - 在4行代码中

2021-04-09 20:36:05

在最先进的深度学习模型的帮助下,布局解析器可以使用几行代码来提取复杂的文档结构。此方法也更加强大,并且在此过程中没有涉及复杂的规则。

▲一组通用API,用于对不同类型的文档进行布局检测。

为了适应异因文档布局结构,布局解析器在不同数据集上培训的DL模型集合。目前,在5个不同的数据集中培训的9型号,可以通过统一接口加载。

▲5使用的数据集中的示例图像(屏幕截图取自纸张或开源数据集)。

布局解析器支持布局数据的不同抽象级别,并为布局数据提供三类表示,即坐标,教科块和布局。支持相同的操作和转换,并且这些类别支持,以最大化处理布局数据时的效率。

布局解析器使用简单的语法可视化布局数据:lp.draw_box或lp.draw_text。它提供了两种模式,用于显示布局数据:模式我直接覆盖了原始图像上的布局区域边界框和类别。模式II通过在图像画布上的相应位置绘制OCR的文本来重新创建原始文档。

布局解析器支持将布局数据加载和导出到不同的格式,包括CSV,JSON或特定于域的常规格式,如页面,COCO或METS / ALTO格式(即将发布完全支持它们)。它提供了将布局解析器与其他文档图像分析流水线集成的灵活性,并使您可以使用社区分享您的输出。

布局PARSER还可以在您自己的数据集上完全支持自定义布局模型培训。这使您可以在您的数据集上实现最佳预测精度,可以简化您的管道。支持不同的训练模式,即,从现有模型进行划伤或微调培训。在布局 - Parser /布局模型培训中了解更多详细信息。

没有标记的培训数据可用?别担心!布局解析器还包含一个数据注释工具包,可以更有效地创建培训数据集。如下图所示,工具从预先训练的型号(a)中加载布局预测,用户只需要选择并检查较小的模型预测以纠正或重新标记(b)。假负荧光笔(c)有助于从模型预测中识别错误识别的对象。在这些步骤之后,通过较少的努力来创建完整的图像注释。

▲与对象级主动学习功能的注释界面的插图。在本文中了解更多信息。

布局解析器还旨在为文档图像分析(DIA)研究和应用创建社区平台。目前DIA中的一个关键挑战是布局模型和管道的可重用性。布局解析器维护者目前正在努力实施从业者的平台,以便轻松分享其模型和管道。通过简化布局模型的分布,以及促进布局管道的可重用性,它可以广泛地转换DIA工作流程和管道。