第一步 当然是先把超星的书下载回来,下载了一本《中国艺术经典全书--魔术》。
打开后,点击左面栏“章节目录”,在下拉框中选择“页列表模式”,这样能知道要打印多少页。如图。
第二步:打印设置
选择“图书”-->“打印”,d出“打印设置”窗口,设置打印页数和方式。只打印目录页和伏睁正文页,共137页。其它使用默认设置。如图:
在d出的“打印”窗口中,选择微软的虚拟打印机,勾选“打印到文件”复选框。输出路径闷戚可以在“首选项”按钮的“高级”选项卡中设定。打印的生成的文件的扩展名是.mdi。
注意:超星会检测打印名称中是不是含有“image”,“office"等缺罩岁字样,若有,就拒绝打印。所以要把打印机的名字改一下。上图中的“超星打印机”就是Microsoft Office Document Imaging 打印机。
第三步:执行OCR识别功能
打印完成后,文件将自动打开。
大致浏览一下,把空白页和图片太多的页删掉。然后在工具栏点击word样的图标,d出“将文本发送到WORD”窗口,直接确定,MS Office Document Imaging便开始执行文字识别功能,并将识别的内容写入与打印文件相同目录下的同名word文档。
文字识别执行完成后文档自动打开。这里打开的是一个网页文件,将其另存为.doc。
生成的文件中有乱码是必然的。在排版复杂或图片多的文件中尤其如此。OCR会努力把图片当成文字来识别,通常需要要把文中多余的空格和回车删掉。最后,把乱码修改一下。
超星pdg文件转换为word文档的方法前提条件:
1、安装超星3.72版本
2、安装word2003,并且必须安装组件:Microsoft
Office
Document
Imaging
过程:
第一步:首先使用安装超星3.72版本,接下来选择打印,在打开的“打印”设置窗口中将“打印机”手誉栏中的“名称”设置为“Microsoft
Office
Document
Image
Writer”,确认后将该PDG文件输出为MDI格式的虚拟打印文件。
提示:如果你在“名称”设置的下拉列表中没有找到“Microsoft
Office
Document
Image
Writer”项,那证明你在安装Office
2003的时候没有安装该组件,请使用Office
2003安装光盘中的“添加/删除组件”更新安装该组件。
第二步:运行Microsoft
Office
Document
Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在d出迟薯耐的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此 *** 作前重新运行OCR。这可能需要一些时间”,确认即可。
实际上,他利用的是Microsoft
Office
Document
Imaging组件的ocr功能。
同码春理,只要你能把你所需要的任何文档利用Microsoft
Office
Document
Image
Writer转换为mdi文件,你就能把它转换为word文档。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)