tesseract-ocr-setup-3.02.02怎么安装

tesseract-ocr-setup-3.02.02怎么安装,第1张

tesseract-ocr(开源图像识别引擎)

http://www.ddooo.com/softdown/94968.htm

1.打开下载的压缩包,找到“tesseract-ocr-setup-3.02.02.exe”,双吵弯庆击运行,进入下图所示安装界面,点击“next”。

2.勾选“I

accept....”,然后点击“next”。

3.选择可以使用该软件的用户,这里我们选择第一个闹橘,任何使用该电脑的人都可以使用升握它,然后点击"next"。

4.选择安装路径,之后点击“next”。

5.选择需要安装的组件,默认是没有勾选语言组件的,我们可以勾选自己想要识别的语言。勾选简体中文的话,那么就可以识别有简体中文的图像了,其他语言同理。

6.正在安装中,请耐心等待。

7.安装完成之后我们打开cmd,输入“tesseract”,出现下图所示表示安装成功

本文训练数据部分参考: https://blog.csdn.net/ruyulin/article/details/89046148

只能识闷烂袭别字母与数字比较正的图片内容,不正的基本无法识别,就算训练也是一样

需要更精准的识别,可以使用tensorflow框架,进行模型建立及训练,但是需要学习的东西会比较多。

官网: https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

注意:

官网: https://digi.bib.uni-mannheim.de/tesseract/

pip install pytesseract

以古诗文网的登录页面为例,获取验证码数据:

结果图片:

复制VeriCode.traineddata,放到tessdata(蚂兄Tesseract安装目录的一个文件夹)文件夹下

tesseract VeriCode.font.exp1.tif VeriCode.font.exp1 batch.nochop makebox

双击需要修改值的char,修改之后需要回车

例如,该D字符,宽度很宽,占据多个字符位置,可以使用分割split,分割成多个再删除不需要的,或者修改宽度,历段再调整坐标

前面步骤全部完成,我们就可以使用pytesseract进行图片识别了

若未安装:tesseract,则会报错

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

之前使用 sudo apt-get install tesseract-ocr 安装的tesseract-ocr有问蠢哪弯题,不带闷能使用psm参数。决定手动编译安装。下面参考别人的安装过程。

安装所需的库

sudo apt-get install libpng12-dev

sudo apt-get install libjpeg62-dev

sudo apt-get install libtiff4-dev

sudo apt-get install gcc

sudo apt-get install g++

sudo apt-get install automake

pytesser 调用了 tesseract,因此需要安装 tesseract,安装 tesseract 需要安装 leptonica,否则编译tesseract 的时候出现 "configure: error: leptonica not found"。

以下都是解压编译安装的老步骤缓弯:

./configure

make -j4

sudo make install

下载安装leptonica

http://www.leptonica.org/download.html 或者

http://code.google.com/p/leptonica/downloads/list

最新的是leptonica-1.69.tar.bz2

下载安装tesseract

http://code.google.com/p/tesseract-ocr/

最新的是 tesseract-ocr-3.02.02.tar.gz


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12482228.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-25
下一篇 2023-05-25

发表评论

登录后才能评论

评论列表(0条)

保存