paddleocr的中文检测总结_python

paddleocr的中文检测
最近在做ocr检测，项目要求是中文、英文、数字和一些符号检测
一开始用的是tesseract，对英文检测、数字检测和一些标点符号检测十分准确。

但是因为项目中出现了中文、和一些残缺、粘连的以英文（二值化以后出现的情况，而且类似于手写体，不是标准字体），这个时候无论重新训练tesseract还是在原有基础上继续训练，总是无法达到满意的效果（ps：tesseract官方有训练好的中文模型，要自己找）

试了很多种方式，包括opencv4.5.1开始支持文本检测模型高级API和文本识别模型高级API：TextDetectionModel（DB模型）和TextRecognitionModel（CRNN模型）。

但是我找到的训练好的权重对英文检测良好，对中文检测实在是不行（注意：不是深度学习网络模型不行，而是权重不行，要自己重新去找数据集训练或者自己制作做数据集，这个工作量是巨大的）

最后无意中刚发现了paddlleocr，在它的网页上可以先上传图片测试一下效果，发现对中英文、数字、标点符号等检测非常好。

于是配置paddle环境，然后在c++部署等（这是后话）

paddle也用的是DB模型+CRNN模型，但是百度科学家明显优化过网络，并且针对中英文、数字、符号训练、调参，特别是中文，检测效果非常好。

并且支持python部署和c++部署。

搞学术可能无所谓哪种语言，但是搞工业，这个就非常重要了。

有时候项目主体用c++开发，这时候用python开发部分，如何融入主体项目，花的时间可能比使用Python开发更多。

paddleocr减少了重复造轮子的环节，并且可以重新训练，也可以直接使用官方是提供的大中小三种规格的权重。

欢迎分享，转载请注明来源：内存溢出

paddleocr的中文检测总结