求好用的ocr文字识别软件下载_软件运维

ABBYY FineReader PDF是专业的OCR图片文字识别软件，可以快速、准确、方便地将扫描纸质文件、PDF格式及数字或移动滑芦电话图像转换成可编信拿带辑格式——敏穗Microsoft Word、Excel、PowerPoint、可检索的PDF、HTML、DjVu等。

99.8%的识别准确率即刻识别文本，复制和粘贴，搜索或编辑。

OCR文字识别软件 Mini Ocr

xdowns.com/view_soft/3/7/OCRwenzishibieruanjian Mini Ocr.html

件

本软件是飞涛软件工作室开发的一款免费Ocr软件,主要用于识别图像文件之中，出现

的汉字显示字体。Ocr的中文含意是光学字符识别。

为什么叫Mini呢？因为现有的识别汉字的商业Ocr软件，动辄二三十兆，而本软件解

压后，也不过三兆多，身材比较纤小，再加上本软件主要用于识别字体比较小的汉字，所

以叫Mini，中文的发音是“迷你”，中文含义是超小型。

既然有了商业Ocr软件，为什么还要开发这个软件？

不同于商业Ocr软件，本软件是免费的，可以自由使用。第二个不同之处，本软件的

识别对象是屏幕出现的“显示汉字”，而不是针对扫描仪扫出来的“打印汉字”。二者有什

么不同呢？最重要的一点：扫描出来的打印汉字的高度和宽度一般都在30多个像素点之

上，这是我用画图软件，打开某个商业Ocr的samples\sample1.tif，然后一点一点数出

来的。从文件名和目录名的中文含意可以看出，这个点数应该是一个典型值。那么，如果

用商业Ocr识别屏幕上出现的小五号字，汉字的高度是12个像素点，会出现什么情况呢？

测试方法：用记事本随便写几行汉字，设置字体为小五号字。这大概是看着还算舒服

的最小号的汉字字体了（高度是12个像素点），如果再小，字体就很难看了。然后，按拷

屏键PrtSc，把屏幕的图像拷贝、粘贴到画图软件中，修剪尺寸后，保存为bmp的格式。

然后，我找了两个国内最著名的Ocr软件进行测试，结果让人大吃一惊，识别率几乎为岩握零。

把图像放大两倍，再测试，结果仍然很不理想，大概也只有百分之二三十的样子。

开发Mini Ocr软件的由来

我在开发护花使者反黄图像识别软件的时候，遇到有些图像里,嵌有某些文字，如果能

把文字识别出来，图像的含义就很容易让计算机理解了。预算有限，我连扫描仪都舍不得

买，就更别想买商业Ocr的开发包了，大概几十万,或者更多，或者别人压根就不卖。况且

它们的识别率对小字体几乎为零，不符合我的要求。看来，只好自力更生，重新写一个了。

开发Mini Ocr的历程

经过三个多月的努力，终于诞生了这款Mini Ocr 软件。第1个月做出了汉字识别的

核心模块，第2个月做出了文章段落切分的算法，并加入了对英文，数字，标点的支持，

第三个月继续调整英汉混排和汉字切分的算法，并用MFC 做了一个界面。

Mini Ocr的软件架构

为了让更多的人能使用到这个软件，我在windows系统下，采用VC进行编程，界面当

然只好用MFC写了。软件架构是一个SDI框架下的多窗口切分界面，左上角的窗口是一个

CFormView，用来显示常用的按钮；左下角是一个CEditView,用来显示帮助信息；右上角

是一个CView,用来显示要识别的图像；右下角是一个CEditView,用来存放识别出来的文

字。识别部分采用了工作者线程，以避免显示界面的主线程僵掉。识别部分是整个软件的

核心，与 *** 作系统无关，可以单独摘出来放在dos窗口里册枣竖跑，也可以移植到Linux系统中跑。

汉字识别软件的难点所在：

英文识别有一些开放源码的软件，我看过的软件，主要采取两种识别方法：基于规则

的方法，和采用神经网络方法。而这两种方法，在识别汉字时，都不宜采用。因为汉字数

目众多，最常用的国标2312的一级汉字就有3755个。如果借用基于规则的方法，需要对

三千多个汉字，逐一人工写出分类规则，工作量太大，我一个人无法完成；如果采用神经

网络的方法，这么多汉字，我不敢想象，需要多少层网络和神经节点呀！如果采用网格法，

抗位移的效果太差；而采用不变矩法，识别人和入，土和士，相似度又难于控制。除此之

外，汉字切分也是一大难题。英文宽度大概只有汉字一半，标点符号大概只有汉字三分之

一宽，数州大字大概只有四分之一的宽度。而汉字本身又有二分字，和三分字。某些字，如“啊”，

字体小时可能是独体字，字体大些，变为二分字，字体再大，又变为三分字。加上汉字与

汉字之间的粘连、汉字与英文的混排，英文与英文的粘连，造成汉字切分模块的算法，甚

至比汉字识别模块的算法还要复杂得多。为了克服这些难点，并加快识别速度，我在算法

设计时，采用了一些优化和简化的策略。经过实践检验，证明行之有效。

Mini Ocr进行汉字识别的策略：

1) 采用复合特征的分类方法。

2) 字符集选择3755个一级汉字。

3) 字体选择最常用的宋体。

4) 字号选择从小五号到一号汉字，主要针对20个点之内的小字体。

5) 英汉混排时，汉语优先。

6) 汉字粘连时，进行动态优化切分。

展望与下一步的开发计划：

1) 重新优化英文识别的算法；

2) 对英文粘连的切分算法进行调整；

3) 移植进入Linux；

选择Ocr软件的建议：

如果您选择Ocr软件，目的是用来识别扫描仪出来打印字体，推荐还是选用知名的商业Ocr。

如果您要识别屏幕上显示的汉字，Mini Ocr是一个比较不错的选择。真诚地希望您在使用

中，能喜欢上它

说句实在话，现在的这些文字识别软件像什么方正啊，汉王啊都不怎么样，何况office2003中自带了OCR软件啊在绿盟上有篇这样的文章各种格式文件ocr成word文件的方法你还在为不同格式的文件怎么变成word文件发愁吗？各种识别软件各有缺陷，识别效率低，让你痛苦不堪，有的只能识别字，对表格和图形无能为力，识别完了，版面乱七八糟，无法使用。现在好了，本文针对各种情况下文字识别进行总结，帮助大家掌握正确方法，节省时间，本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案： 1、PDF文件的识别： 1）文件可以直接识别的（以文本形式保存的PDF文件）：安装acrobat 7专业版，注意不是acrobat reader（下载 http://www.xdowns.com/soft/4/136/2006/Soft_29430.html），直接另存为rtf文件（识别整个文件），或者选择工具栏上的文字选择按钮，然后选择文字区域，然后复制到word等中。 2）文件不能直接识别的（以图片形式保存的PDF文件）：安装office2003（下载 http://www.xdowns.com/soft/188/215/2006/Soft_28356.html ），并装上office工具Microsoft Office Document Imaging（完全安装此工具），然后在打印机里面会增加Microsoft Office Document Image Writer打印机，然后将PDF文件打印到此打印机，选择打印形成的文件的保存位置，然后会自动形成一个MDI文件，并且自动用Microsoft Office Document Image打开此文件，然后选择“工具”菜单下的“使用ocr识别文本”，识别完成后，在选择“工具”下的，“将文本发送到word”，最后将把整个PDF文件识别输出到word文件中。注意：Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格，但是无法将图形输出到word，而是把文件中的所有图形单独形成一个个独立的图片文件，放在相同位置的一个相同名称的文件夹中，因此可用snagit软件将图形打开，然后复制到word中。（所有的识别软件都不能很好的处理图形的识别问题，Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。） 3）加密的Pdf文件：先下载解密软件（下载 http://www.xdowns.com/soft/4/85/2006/Soft_29750.html ），解密后在参看1),2) 4）繁体pdf文件：用2)的方法识别到word后，用word中的“工具”－－“语言”－－－“中文繁简转换” 2、caj文件的识别： 1）局部文字识别：直接使用caj浏览器（下载地址 http://www.xdowns.com/soft/4/136/2006/Soft_29737.html ）的ocr 2）全文件识别：打印到Microsoft Office Document Image Writer打印机，后面和上面的2) *** 作一样 3）博硕论文全文下载：在线阅读博硕论文，待可以看到最后一页后，不要关肆昌闭caj浏览器，到caj安装目录下cache中找到一个较大的文件，拷贝到其他位置即可。然后使用2)全部转化为word。 3、超星文件的识别： 1）局部文字识别：直接使裂肆扒用超星浏览器（下载地址 http://www.xdowns.com/soft/31/91/2006/Soft_27810.html ）的ocr 2）全文件识别：打印到Microsoft Office Document Image Writer打印机，后面和上面的2) *** 作一样，要注意的是，超星打印功能有点区别，因为超星是目录和全文分开的，所以打印时，需要分别把目录和正文识别到word中，在合并到一起。打印时要填入打印页码从1到最后一页雹尘，不要选择打印全部。此外在打印选项中，还要将页面比例设成真实大小，而不是整宽。注意：识别速度比其他格式要慢很多，请保持耐心，但是最后当你看到轻松的生成全本书的word版本时，你会欣喜若狂的，呵呵。我的试验结果是一本280页的书，识别需要几分钟的时间。 3）超星相对比较麻烦一些，如果还有问题，可以先把超星打印成完整的pdf文件，然后在用1、的方法转成word 4、其他情况下的识别：使用snagit软件（下载 http://www.xdowns.com/soft/31/46/2006/Soft_29690.html ）将任何形式的文字可以变成图片，例如使用snagit将屏幕拷贝成图片，然后右键点击图片文件，用microsoft Office Document Image打开图形，其他和2)一样。注意：其他的各种识别软件请不要在用，因为要么只能识别中文，要么只能识别英文，要么不能识别整个文件，要么不能识别屏幕拷贝图像，要么识别误差很大，要么不能识别表格，要么需要注册，要么识别速度很慢，要么使用不便（和word结合不紧），这些软件包括：紫光ocr，万方pdfocr，尚书，汉王，ScanSoft PDF Converter，pdf2word，以及各种被推荐的软件等等，我都装过，现在都像LJ一样删除了。只要安装了acrobat 专业版，snagit，office2003，现在你可以完美的做任何事，最重要的是这几个软件很好得到。针对一些问题的补充：经过一些试验，发现microsoft Office Document Image 存在一些不稳定的问题，例如在用caj打印到Microsoft Office Document Image Writer打印机时，发现用caj5.5版本比较快，（caj5.5不能加升级补丁），而caj5.0有时出现假死机。另外页面显示大时，转化的识别率较高。如果页数多的文件，包括超星，如果有问题，可以分多次转化。再次补充： 1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢，并且形成的虚拟文件很大，1本200多页的书大约是60M，因此会严重影响机器的运行速度和C盘空间以及内存空间，建议配置好的机器一次转化不要超过200页，配置差的不要超过100页，同时打印时在右下角系统栏中会出现打印机图，你可以双击，看到打印任务的进度，以免以为死机了。另外转化完成后请删除c:\\windows\\temp目录下的虚拟打印文件，否则你的c盘很快会被用光。 2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况，可以先打印到snagit虚拟打印机，会自动生成tiff文件，速度比Microsoft Office Document Image Writer快，然后在snagit中，选择打印机为Microsoft Office Document Image Writer打印机，（相当于再打印到Microsoft Office Document Image Writer打印机），然后选择snagit---outputs下的printer，然后选择snagit----file----finish output，即可生成msi文件，其他一样。转化完成后请删除c:\\windows\\systems32\\snagit临时文件。

满意请采纳

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12549403.html

求好用的ocr文字识别软件下载

发表评论

评论列表（0条）