tesseract-ocr-setup-3.02.02怎么安装_教程

tesseract-ocr(开源图像识别引擎)

http://www.ddooo.com/softdown/94968.htm

1.打开下载的压缩包，找到“tesseract-ocr-setup-3.02.02.exe”，双吵弯庆击运行，进入下图所示安装界面，点击“next”。

2.勾选“I

accept....”，然后点击“next”。

3.选择可以使用该软件的用户，这里我们选择第一个闹橘，任何使用该电脑的人都可以使用升握它，然后点击"next"。

4.选择安装路径，之后点击“next”。

5.选择需要安装的组件，默认是没有勾选语言组件的，我们可以勾选自己想要识别的语言。勾选简体中文的话，那么就可以识别有简体中文的图像了，其他语言同理。

6.正在安装中，请耐心等待。

7.安装完成之后我们打开cmd，输入“tesseract”，出现下图所示表示安装成功

本文训练数据部分参考： https://blog.csdn.net/ruyulin/article/details/89046148

只能识闷烂袭别字母与数字比较正的图片内容，不正的基本无法识别，就算训练也是一样

需要更精准的识别，可以使用tensorflow框架，进行模型建立及训练，但是需要学习的东西会比较多。

官网： https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

注意：

官网： https://digi.bib.uni-mannheim.de/tesseract/

pip install pytesseract

以古诗文网的登录页面为例，获取验证码数据：

结果图片：

复制VeriCode.traineddata，放到tessdata（蚂兄Tesseract安装目录的一个文件夹）文件夹下

tesseract VeriCode.font.exp1.tif VeriCode.font.exp1 batch.nochop makebox

双击需要修改值的char，修改之后需要回车

例如，该D字符，宽度很宽，占据多个字符位置，可以使用分割split，分割成多个再删除不需要的，或者修改宽度，历段再调整坐标

前面步骤全部完成，我们就可以使用pytesseract进行图片识别了

若未安装：tesseract，则会报错

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

之前使用 sudo apt-get install tesseract-ocr 安装的tesseract-ocr有问蠢哪弯题，不带闷能使用psm参数。决定手动编译安装。下面参考别人的安装过程。

安装所需的库

sudo apt-get install libpng12-dev

sudo apt-get install libjpeg62-dev

sudo apt-get install libtiff4-dev

sudo apt-get install gcc

sudo apt-get install g++

sudo apt-get install automake

pytesser 调用了 tesseract，因此需要安装 tesseract，安装 tesseract 需要安装 leptonica，否则编译tesseract 的时候出现 "configure: error: leptonica not found"。

以下都是解压编译安装的老步骤缓弯：

./configure

make -j4

sudo make install

下载安装leptonica

http://www.leptonica.org/download.html 或者

http://code.google.com/p/leptonica/downloads/list

最新的是leptonica-1.69.tar.bz2

下载安装tesseract

http://code.google.com/p/tesseract-ocr/

最新的是 tesseract-ocr-3.02.02.tar.gz

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12482228.html

tesseract-ocr-setup-3.02.02怎么安装

发表评论

评论列表（0条）