如何通过Tesseract开源OCR引擎创建Android OCR应用

如何通过Tesseract开源OCR引擎创建Android OCR应用,第1张

Tesseract是图盲,默认情况下只能看得懂未压缩的TIFF图像,如果直接用tesseract处理其它格式的图片,会报错如下:

Tesseract Open Source OCR Engine

name_to_image_type:Error:Unrecognized image type:code.jpg

IMAGE::read_header:Error:Can’t read this image type:code.jpg

tesseract:Error:Read of file failed:code.jpg

所以我们需要用ImageMagick来转换图片格式,ImageMagick (TM) 是一个免费的创建、编辑、合成图片的软件。它可以读取、转换、写入多种格式的图片。图片切割、颜色替换、各种效果的应用,图片的旋转、组合,文本,直线,多边形,椭圆,曲线,附加到图片伸携氏源展旋转。ImageMagick是免核盯费软件:全部源码开放,可以自由使用,复制,修改,发布。它遵守GPL许可协议。它可以运行于大多数的 *** 作系统。ImageMagick的大多数功能的使用都来源于命令行工具。通常来说,它可以支持以下程序语言: Perl, C, C++, Python, PHP, Ruby, Java;现成的ImageMagick接口(PerlMagick, Magick++, PythonMagick, MagickWand for PHP, RubyMagick, and JMagick)是可利用的。这使得自动的动态的修改创建图片变为可能。ImageMagick支持至少90种图片格式: A, ART, AVI, AVS, B, BIE, BMP, BMP2, BMP3, C, CACHE, CAPTION, CIN, CIP, CLIP, CLIPBOARD, CMYK, CMYKA, CUR, CUT, DCM, DCX, DNG, DOT, DPS, DPX, EMF, EPDF, EPI, EPS, EPS2, EPS3, EPSF, EPSI, EPT, EPT2, EPT3, FAX, FITS, FPX, FRACTAL, G, G3, GIF, GIF87, GRADIENT, GRAY, HDF, HISTOGRAM, HTM, HTML, ICB, ICO, ICON, JBG, JBIG, JNG, JP2, JPC, JPEG, JPG, JPX, K, LABEL, M, M2V, MAP, MAT, MATTE, MIFF, MNG, MONO, MPC, MPEG, MPG, MSL, MTV, MVG, NULL, O, OTB, P7, PAL, PALM, PATTERN, PBM, PCD, PCDS, PCL, PCT, PCX, PDB, PDF, PFA, PFB, PGM, PGX, PICON, PICT, PIX, PJPEG, PLASMA, PNG, PNG24, PNG32, PNG8, PNM, PPM, PREVIEW, PS, PS2, PS3, PSD, PTIF, PWP, R, RAS, RGB, RGBA, RGBO, RLA, RLE, SCR, SCT, SFW, SGI, SHTML, STEGANO, SUN, SVG, SVGZ, TEXT, TGA, TIF, TIFF, TILE, TIM, TTC, TTF, TXT, UIL, UYVY, VDA, VICAR, VID, VIFF, VST, WBMP, WMF, WMFWIN32, WMZ, WPG, X, XBM, XC, XCF, XPM, XV, XWD, Y, YCbCr, YCbCrA, YUV,

ImageMagick .NET的相辩态关项目:

Use MagickNet to convert, compose, and edit images from Windows .NET.

ImageMagickApp is a .NET application written in C# that utilizes the ImageMagick command line to allow conversion of multiple image formats to different formats.

假设需要识别的图片验证码为code.jpg,我们需要做的只有两步:

d:\ImageMagick\convert.exe -compress none -depth 8 -alpha off ./code.gif ./code.tif

D:\\tesseract\\tesseract.exe ./code.tif ./result

结果就在文本文件./result.txt里面了,tesseract会自动地在./result后面添加上后缀名.txt。然后再对两个命令做点解释。

convert.exe:ImageMagick套件的一部分,负责图片格式转换,各个参数的意义如下:

-compress none:转换后的图片不要压缩,如果没有加这一项,后续tesseract处理的时候会报错:read_tif_image:Error:Illegal image format:Compression

-depth 8:设置转换后图像的色深为8位,也就是bpp为8。如果没有此参数,后果如下:

Tesseract Open Source OCR Engine

check_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are supported:16

Segmentation fault

-alpha off:在转换后的图像中不要添加alpha图层。如果没有此参数,后果同上。

紧跟着就是待转换的图片的文件名,最后是转换后的图片的文件名。

建议安装EPS缩略图补丁 http://www.cnzz.cc/Soft/1635.html

查看eps缩略图功能需要的文件是:Epsimp32.flt 大小约692kb

到安装officexp的电脑中寻找Epsimp32.flt,再到win98系统中寻找Thumbvw.dll。把这两个文件复制到winxp系统文件夹中,再差亩把下面的注册虚宽森表值导入注册表。系统就可以快速查看eps缩略图了巧肆

REGEDIT4

[HKEY_CLASSES_ROOT\.eps\ShellEx\{BB2E617C-0920-11d1-9A0B-00C04FC2D6C1}]

@="{1AEB1360-5AFC-11d0-B806-00C04FD706EC}"

[HKEY_LOCAL_MACHINE\Software\CLASSES\CLSID\{1AEB1360-5AFC-11D0-B806-00C04FD706EC}\InprocServer32]

@="THUMBVW.DLL"

[HKEY_LOCAL_MACHINE\Software\Microsoft\Shared Tools\Graphics Filters\Import\EPS]

"Extensions"="eps"

"Name"="内嵌的 PostScript"

"Path"="EPSIMP32.FLT"

[HKEY_CLASSES_ROOT\CLSID\{1AEB1360-5AFC-11D0-B806-00C04FD706EC}\InprocServer32]

@="THUMBVW.DLL"

"ThreadingModel"="Apartment"

这次程序通了,也能画出曲线了简闹。

clcclear

rou=0.45869V=210W=100000

S=pi/4B=38.05n=1

To=n*W/(rou*V*S*B)

Vo=To/(2*pi*pi*B/丛咐搭4)

t0=S*B/Vo

epsilu=0.452

epsiluxin=(epsilu*pi*B/4).^(1/3)/Vo

if epsiluxin>0.2535

Tcxin=t0*(0.7475/epsiluxin).^(3/4)

elseif epsiluxin>0.0121&&epsiluxin<0.2535

epsiluxin=(Tcxin/t0)^0.25*exp(-0.7*Tcxin/t0)

elseif epsiluxin<0.0121&&epsiluxin>渗拿0.001

Tcxin=t0*(-180*epsiluxin+9.18)

else epsiluxin<0.001

Tcxin=9*t0

end

t=0:500

N=0.01

TaoT=To*(1.1-10.0.^(-5*t0/(Tcxin+5*t0)))*exp((-0.452+0.25*(N*t0).^2.)*(t-Tcxin)/Tcxin)

plot(t,TaoT)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12245179.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-22
下一篇 2023-05-22

发表评论

登录后才能评论

评论列表(0条)

保存