布局分析 - 在4行代码中

2021-04-09 20:36:05

在最先进的深度学习模型的帮助下，布局解析器可以使用几行代码来提取复杂的文档结构。此方法也更加强大，并且在此过程中没有涉及复杂的规则。

▲一组通用API，用于对不同类型的文档进行布局检测。

为了适应异因文档布局结构，布局解析器在不同数据集上培训的DL模型集合。目前，在5个不同的数据集中培训的9型号，可以通过统一接口加载。

▲5使用的数据集中的示例图像（屏幕截图取自纸张或开源数据集）。

布局解析器支持布局数据的不同抽象级别，并为布局数据提供三类表示，即坐标，教科块和布局。支持相同的操作和转换，并且这些类别支持，以最大化处理布局数据时的效率。

布局解析器使用简单的语法可视化布局数据：lp.draw_box或lp.draw_text。它提供了两种模式，用于显示布局数据：模式我直接覆盖了原始图像上的布局区域边界框和类别。模式II通过在图像画布上的相应位置绘制OCR的文本来重新创建原始文档。

布局解析器支持将布局数据加载和导出到不同的格式，包括CSV，JSON或特定于域的常规格式，如页面，COCO或METS / ALTO格式（即将发布完全支持它们）。它提供了将布局解析器与其他文档图像分析流水线集成的灵活性，并使您可以使用社区分享您的输出。

布局PARSER还可以在您自己的数据集上完全支持自定义布局模型培训。这使您可以在您的数据集上实现最佳预测精度，可以简化您的管道。支持不同的训练模式，即，从现有模型进行划伤或微调培训。在布局 - Parser /布局模型培训中了解更多详细信息。

没有标记的培训数据可用？别担心！布局解析器还包含一个数据注释工具包，可以更有效地创建培训数据集。如下图所示，工具从预先训练的型号（a）中加载布局预测，用户只需要选择并检查较小的模型预测以纠正或重新标记（b）。假负荧光笔（c）有助于从模型预测中识别错误识别的对象。在这些步骤之后，通过较少的努力来创建完整的图像注释。

▲与对象级主动学习功能的注释界面的插图。在本文中了解更多信息。

布局解析器还旨在为文档图像分析（DIA）研究和应用创建社区平台。目前DIA中的一个关键挑战是布局模型和管道的可重用性。布局解析器维护者目前正在努力实施从业者的平台，以便轻松分享其模型和管道。通过简化布局模型的分布，以及促进布局管道的可重用性，它可以广泛地转换DIA工作流程和管道。

https://layout-parser.github.io/

齿纱为其无代码安全自动化平台提高2600万系列

2021-4-8 20:28

没有线程不安全的代码，只有不合适的线程[视频]

2021-4-8 8:47

Pinterest宣布宣布$ 500K创作者基金，“创建者代码”内容策略，审核工具等

2021-4-8 3:40

谷歌现在正在锈病中编写低级Android代码

2021-4-8 1:34

tags users