PaddleOCR,多语言OCR工具

2021-01-04 20:32:09

PaddleOCR旨在创建多语言,出色,领先和实用的OCR工具,以帮助用户训练更好的模型并将其应用于实践。

2020.12.15更新了数据合成工具,即样式文本,易于合成与目标场景图像相似的大量图像。

2020.11.25更新新的数据注释工具,即PPOCRLabel,这有助于提高标记效率。此外,标记结果可直接用于PP-OCR系统的培训。

PPOCR系列高质量预训练模型,可媲美商业效果超轻量级ppocr_mobile系列模型:检测(3.0M)+方向分类器(1.4M)+识别(5.0M)= 9.4M

通用ppocr_server系列模型:检测(47.1M)+方向分类器(1.4M)+识别(94.9M)= 143.4M

与OCR区域相关的丰富工具包数据合成工具,即样式文本:易于合成与目标场景图像相似的大量图像

上面的图片是通用ppocr_server模型的可视化。有关更多效果图片,请参阅更多可视化。

使用您的微信扫描以下QR码,即可进入官方技术交流小组。期待您的参与。

移动DEMO体验(基于EasyEdge和Paddle-Lite,支持iOS和Android系统):登录网站以获取用于安装App的QR码

另外,您可以扫描以下QR码以安装应用程序(仅适用于Android支持)

注意:与使用静态图编程范例进行训练的模型1.1相比,模型2.0是动态图训练的版本,并且具有接近的性能。

有关更多模型下载(包括多种语言)的信息,请参考PP-OCR v2.0系列模型下载。

PP-OCR是一种实用的超轻型OCR系统。它主要由三个部分组成:DB文本检测[2],检测帧校正和CRNN文本识别[7]。该系统从8个方面采用19种有效策略,包括骨干网选择和调整,预测头设计,数据扩充,学习率转换策略,正则化参数选择,预训练模型使用以及自动模型剪裁和量化,以优化和瘦身。每个模块的模型。最终结果是一个超轻量的中文和英文OCR模型,总大小为350万,英文数字为280万。有关更多详细信息,请参阅PP-OCR技术文章(https://arxiv.org/abs/2009.09941)。此外,FPGM Pruner [8]和PACT量化[9]的实现是基于PaddleSlim的。

如果要请求新的语言支持,则需要包含2个以下文件的PR:

在文件夹ppocr / utils / dict中,有必要将dict文本提交到此路径,并用包含所有字符列表的{language} _dict.txt命名。请查看该文件夹中其他文件的格式示例。

在文件夹ppocr / utils / corpus中,有必要将语料库提交到此路径,并使用{language} _corpus.txt命名该语料库,其中包含您所用语言的单词列表。也许每种语言至少需要50000个单词。当然,越多越好。

如果您的语言具有独特的元素,请以任何方式提前告诉我,例如有用的链接,维基百科等。

非常感谢Khanh Tran和Karl Horky贡献并修订了英语文档。

非常感谢zhangxin贡献了新的可视化功能,添加了.gitgnore并手动放弃了PYTHONPATH设置。

感谢tangmq为PaddleOCR提供了Dockerized部署服务,并支持可释放的Restful API服务的快速发布。

感谢lijinhan贡献了一种新方法,即java SpringBoot,以实现对Hubserving部署的请求。

感谢Evezerest,ninetailskim,edencfc,BeyondYourself和1084667371为新的数据注释工具(即PPOCRLabel)所做的贡献。