求好用的ocr文字识别软件下载

求好用的ocr文字识别软件下载,第1张

ABBYY FineReader PDF是专业的OCR图片文字识别软件,可以快速、准确、方便地将扫描纸质文件、PDF格式及数字或移动滑芦电话图像转换成可编信拿带辑格式——敏穗Microsoft Word、Excel、PowerPoint、可检索的PDF、HTML、DjVu等。

99.8%的识别准确率即刻识别文本,复制和粘贴,搜索或编辑。

OCR文字识别软件 Mini Ocr

xdowns.com/view_soft/3/7/OCRwenzishibieruanjian Mini Ocr.html

本软件是飞涛软件工作室开发的一款免费Ocr软件,主要用于识别图像文件之中,出现

汉字显示字体。Ocr的中文含意是光学字符识别。

为什么叫Mini呢?因为现有的识别汉字的商业Ocr软件,动辄二三十兆,而本软件解

压后,也不过三兆多,身材比较纤小,再加上本软件主要用于识别字体比较小的汉字,所

以叫Mini,中文的发音是“迷你”,中文含义是超小型。

既然有了商业Ocr软件,为什么还要开发这个软件?

不同于商业Ocr软件,本软件是免费的,可以自由使用。第二个不同之处,本软件的

识别对象是屏幕出现的“显示汉字”,而不是针对扫描仪扫出来的“打印汉字”。二者有什

么不同呢?最重要的一点: 扫描出来的打印汉字的高度和宽度一般都在30多个像素点之

上,这是我用画图软件,打开某个商业Ocr的samples\sample1.tif,然后一点一点数出

来的。从文件名和目录名的中文含意可以看出,这个点数应该是一个典型值。那么,如果

用商业Ocr识别屏幕上出现的小五号字,汉字的高度是12个像素点,会出现什么情况呢?

测试方法:用记事本随便写几行汉字,设置字体为小五号字。这大概是看着还算舒服

的最小号的汉字字体了(高度是12个像素点),如果再小,字体就很难看了。然后,按拷

屏键PrtSc,把屏幕的图像拷贝、粘贴到画图软件中,修剪尺寸后,保存为bmp的格式。

然后,我找了两个国内最著名的Ocr软件进行测试,结果让人大吃一惊,识别率几乎为岩握零。

把图像放大两倍,再测试,结果仍然很不理想,大概也只有百分之二三十的样子。

开发Mini Ocr软件的由来

我在开发护花使者反黄图像识别软件的时候,遇到有些图像里,嵌有某些文字,如果能

把文字识别出来,图像的含义就很容易让计算机理解了。预算有限,我连扫描仪都舍不得

买,就更别想买商业Ocr的开发包了,大概几十万,或者更多,或者别人压根就不卖。况且

它们的识别率对小字体几乎为零,不符合我的要求。看来,只好自力更生,重新写一个了。

开发Mini Ocr的历程

经过三个多月的努力,终于诞生了这款Mini Ocr 软件。第1个月做出了汉字识别的

核心模块,第2个月做出了文章段落切分的算法,并加入了对英文,数字,标点的支持,

第三个月继续调整英汉混排和汉字切分的算法,并用MFC 做了一个界面。

Mini Ocr的软件架构

为了让更多的人能使用到这个软件,我在windows系统下,采用VC进行编程,界面当

然只好用MFC写了。软件架构是一个SDI框架下的多窗口切分界面,左上角的窗口是一个

CFormView,用来显示常用的按钮;左下角是一个CEditView,用来显示帮助信息;右上角

是一个CView,用来显示要识别的图像;右下角是一个CEditView,用来存放识别出来的文

字。识别部分采用了工作者线程,以避免显示界面的主线程僵掉。识别部分是整个软件的

核心,与 *** 作系统无关,可以单独摘出来放在dos窗口里册枣竖跑,也可以移植到Linux系统中跑。

汉字识别软件的难点所在:

英文识别有一些开放源码的软件,我看过的软件,主要采取两种识别方法:基于规则

的方法,和采用神经网络方法。而这两种方法,在识别汉字时,都不宜采用。因为汉字数

目众多,最常用的国标2312的一级汉字就有3755个。如果借用基于规则的方法,需要对

三千多个汉字,逐一人工写出分类规则,工作量太大,我一个人无法完成;如果采用神经

网络的方法,这么多汉字,我不敢想象,需要多少层网络和神经节点呀!如果采用网格法,

抗位移的效果太差;而采用不变矩法,识别人和入,土和士,相似度又难于控制。除此之

外,汉字切分也是一大难题。英文宽度大概只有汉字一半,标点符号大概只有汉字三分之

一宽,数州大字大概只有四分之一的宽度。而汉字本身又有二分字,和三分字。某些字,如“啊”,

字体小时可能是独体字,字体大些,变为二分字,字体再大,又变为三分字。加上汉字与

汉字之间的粘连、汉字与英文的混排,英文与英文的粘连,造成汉字切分模块的算法,甚

至比汉字识别模块的算法还要复杂得多。为了克服这些难点,并加快识别速度,我在算法

设计时,采用了一些优化和简化的策略。经过实践检验,证明行之有效。

Mini Ocr进行汉字识别的策略:

1) 采用复合特征的分类方法。

2) 字符集选择3755个一级汉字。

3) 字体选择最常用的宋体。

4) 字号选择从小五号到一号汉字,主要针对20个点之内的小字体。

5) 英汉混排时,汉语优先。

6) 汉字粘连时,进行动态优化切分。

展望与下一步的开发计划:

1) 重新优化英文识别的算法;

2) 对英文粘连的切分算法进行调整;

3) 移植进入Linux;

选择Ocr软件的建议:

如果您选择Ocr软件,目的是用来识别扫描仪出来打印字体,推荐还是选用知名的商业Ocr。

如果您要识别屏幕上显示的汉字,Mini Ocr是一个比较不错的选择。真诚地希望您在使用

中,能喜欢上它

说句实在话,现在的这些文字识别软件像什么方正啊,汉王啊都不怎么样,何况office2003中自带了OCR软件啊 在绿盟上有篇这样的文章 各种格式文件ocr成word文件的方法 你还在为不同格式的文件怎么变成word文件发愁吗?各种识别软件各有缺陷,识别效率低,让你痛苦不堪,有的只能识别字,对表格和图形无能为力,识别完了,版面乱七八糟,无法使用。现在好了,本文针对各种情况下文字识别进行总结,帮助大家掌握正确方法,节省时间,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案: 1、PDF文件的识别: 1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意不是acrobat reader(下载 http://www.xdowns.com/soft/4/136/2006/Soft_29430.html) ,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到word等中。 2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003(下载 http://www.xdowns.com/soft/188/215/2006/Soft_28356.html ),并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个PDF文件识别输出到word文件中。 注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到word中。(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。) 3)加密的Pdf文件:先下载解密软件(下载 http://www.xdowns.com/soft/4/85/2006/Soft_29750.html ),解密后在参看1),2) 4)繁体pdf文件:用2)的方法识别到word后,用word中的“工具”--“语言”---“中文繁简转换” 2、caj文件的识别: 1)局部文字识别:直接使用caj浏览器(下载地址 http://www.xdowns.com/soft/4/136/2006/Soft_29737.html )的ocr 2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2) *** 作一样 3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关肆昌闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为word。 3、超星文件的识别: 1)局部文字识别:直接使裂肆扒用超星浏览器(下载地址 http://www.xdowns.com/soft/31/91/2006/Soft_27810.html )的ocr 2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2) *** 作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到word中,在合并到一起。打印时要填入打印页码从1到最后一页雹尘,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280页的书,识别需要几分钟的时间。 3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成word 4、其他情况下的识别: 使用snagit软件(下载 http://www.xdowns.com/soft/31/46/2006/Soft_29690.html )将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其他和2)一样。 注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2word,以及各种被推荐的软件等等,我都装过,现在都像LJ一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。 针对一些问题的补充: 经过一些试验,发现microsoft Office Document Image 存在一些不稳定的问题,例如在用caj打印到Microsoft Office Document Image Writer打印机时,发现用caj5.5版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。 另外页面显示大时,转化的识别率较高。 如果页数多的文件,包括超星,如果有问题,可以分多次转化。 再次补充: 1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后请删除c:\\windows\\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。 2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其他一样。转化完成后请删除c:\\windows\\systems32\\snagit临时文件。

满意请采纳


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12549403.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-26
下一篇 2023-05-26

发表评论

登录后才能评论

评论列表(0条)

保存