那么就需要用OCR类软件进行识别了
用汉王HW_PDF_OCR_80进行识别。
汉王官方网站 主页右下角有免费的正版下载:PDF转WORD,以及格式的PDF整体OCR识别。
>
1、使用任意一款PDf编辑器打开相应的PDF文档,点击“文件”-“文件属性”项打开。
2、待打开“文档属性”界面后,切换到“字体”选项卡,在右侧找到除了标识“已嵌入”的字体外,其它字体尽可能地进行安装。
3、给电脑安装字体的方法很简单,右击字体文件选择“安装”项即可。或者将字体文件拷贝到“c:\windows/fonts”目录中即可。
4、另一种比较有效的方法,就是借助相关PDF文字提取工具,将PDF文档中的字体进行提取即可。如图所示,选择“OCR PDF识别”项。
5、从打开的“OCR PDF识别”界面中,点击“选择文件”以添加相应的PDF文档,并对转换后的文件格式进行设置,点击“开始识别”按钮。
6、待识别PDF文档 *** 作完成后,点击“立即下载”按钮,将识别后的Word文档进行保存即可。最后就可以在Word程序中进行查看及修改 *** 作了。
PDF格式编辑软件很多,因此复制内容出现乱码的原因也有几个下面说下如何不产生乱码:1用Solid Converter PDF Professional 可以在PDF与WORD互相转换,也就可以编辑了;
2用AdreamSoft_PDF_toWord以转换成WORD,就可以编辑了;
3汉王Pdf_Converter,免费软件,可以让PDF转换成WORD或TXT;
4用Foxit PDF Editor可以直接编辑了,网上有PJ的软件;
5用Foxit Phantom可以直接编辑了,网上有PJ的软件。
6abobe acrobat Professional 也有部分编辑功能,网上有PJ的软件。
7汉王HW_PDF_OCR_80可以转换成word或txt,免费软件,也可以进行OCR识别。
如果加密了,对于一些不允许做修改的PDF文件(就是加密加了权限的PDF),那么就先要去除密码或者去除数字证书,软件有:
1PDF Password Remover
2Adult PDF Password Recovery
如果不是类做成的PDF 你可以转换成WORD格式后进行编辑, 但是如果是内嵌了字体的,那么就要看情况了,因为有的字体你系统里面有,转出来就没有问题,如果系统里面没有,那么转出来就是一堆乱码。
对于是和没有字体(乱码)做成的PDF 那么我们就需要用OCR类软件进行识别了:清华紫光OCR;尚书七号;FineReader OCR;Leadtools OCR;汉王OCR;赛酷OCR1用快照工具试试
2下面这个方法我试过,如果有特别复杂的或者是数学等符号转变不好。你试试看:
Office2003实现PDF文件转Word文档
经过本人尝试,发现可以利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF转WORD文档,也就是说利用WORD来完成该任务。方法如下:
用Adobe Reader打开想转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
注:如果没有找到“Microsoft Office Document Image Writer”项,使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“Office 工具 Microsoft DRAW转换器”。
然后,运行“Microsoft Office Document Imaging”,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,在d出的窗口中选中“在输出时保持版式不变”,确认后系统会提示“必须在执行此 *** 作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。
注:对PDF转DOC的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。
以上仅在word2003中可用,其他版本没有Microsoft Office Document Image Writer
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)