http://www.ddooo.com/softdown/94968.htm
1.打开下载的压缩包,找到“tesseract-ocr-setup-3.02.02.exe”,双吵弯庆击运行,进入下图所示安装界面,点击“next”。
2.勾选“I
accept....”,然后点击“next”。
3.选择可以使用该软件的用户,这里我们选择第一个闹橘,任何使用该电脑的人都可以使用升握它,然后点击"next"。
4.选择安装路径,之后点击“next”。
5.选择需要安装的组件,默认是没有勾选语言组件的,我们可以勾选自己想要识别的语言。勾选简体中文的话,那么就可以识别有简体中文的图像了,其他语言同理。
6.正在安装中,请耐心等待。
7.安装完成之后我们打开cmd,输入“tesseract”,出现下图所示表示安装成功
本文训练数据部分参考: https://blog.csdn.net/ruyulin/article/details/89046148
只能识闷烂袭别字母与数字比较正的图片内容,不正的基本无法识别,就算训练也是一样
需要更精准的识别,可以使用tensorflow框架,进行模型建立及训练,但是需要学习的东西会比较多。
官网: https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
注意:
官网: https://digi.bib.uni-mannheim.de/tesseract/
pip install pytesseract
以古诗文网的登录页面为例,获取验证码数据:
结果图片:
复制VeriCode.traineddata,放到tessdata(蚂兄Tesseract安装目录的一个文件夹)文件夹下
tesseract VeriCode.font.exp1.tif VeriCode.font.exp1 batch.nochop makebox
双击需要修改值的char,修改之后需要回车
例如,该D字符,宽度很宽,占据多个字符位置,可以使用分割split,分割成多个再删除不需要的,或者修改宽度,历段再调整坐标
前面步骤全部完成,我们就可以使用pytesseract进行图片识别了
若未安装:tesseract,则会报错
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.
之前使用 sudo apt-get install tesseract-ocr 安装的tesseract-ocr有问蠢哪弯题,不带闷能使用psm参数。决定手动编译安装。下面参考别人的安装过程。安装所需的库
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake
pytesser 调用了 tesseract,因此需要安装 tesseract,安装 tesseract 需要安装 leptonica,否则编译tesseract 的时候出现 "configure: error: leptonica not found"。
以下都是解压编译安装的老步骤缓弯:
./configure
make -j4
sudo make install
下载安装leptonica
http://www.leptonica.org/download.html 或者
http://code.google.com/p/leptonica/downloads/list
最新的是leptonica-1.69.tar.bz2
下载安装tesseract
http://code.google.com/p/tesseract-ocr/
最新的是 tesseract-ocr-3.02.02.tar.gz
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)