问题描述:
在网上搜索文档时,打开PDF格式文档会出现一些乱七乱八的字符.
解析:
如何把Adobe Acrobat 的PDF格式的文档转为Word能够读取、编辑的文档。对于这个问题,不少用户存在两种误解。一是认为Adobe Acrobat PDF文档是图形格式,无法被Word读取二是认为虽然PDF也包含文字代码信息,但Word没有相应的PDF格式转换器,所以无法读取。本文将向您介绍如何把PDF文档读入Word。
了解PDF文档
---- PDF文档到底是什么?
---- PDF是出版和图形领域的软件厂商Adobe制定的电子文档格式标准。Adobe为之提供了免费的文档浏览器--Adobe Acrobat Reader以及相应的编辑软件--Adobe Acrobat,后者可以对PDF文档中页面的组织、链接进行编辑,对文档进行批注等等。而Adobe的另外一款软件--Illustrator则可以从各个细致入微处修整PDF文件。与普通格式的电子文档(如纯文本、超文本、RTF格式以及Word文档等)相比,PDF文档具有能够完善保持版面样式、跨平台等优越性,所以国外许多组织机构在发放无需再次编辑的文件时通常选择使用PDF格式。在我国,许多电子书籍也开始采用PDF格式。
---- 创建PDF文件的典型方法并不是使用Illustrator等软件来编辑,而是先用普通的文字处理和桌面排版软件如Word、WordPerfect和PageMaker等编排好文档,然后通过Adobe的PDF Distiller或者PDF Writer等仿打印机引擎制作PDF文件。另外也有一些PDF文档是直接使用Adobe Acrobat配合扫描仪将原书稿扫描制作完成的,虽然该软件配有支持对多种西方文字进行光学字符识别(OCR)的插件,但是为了保证文字的可靠性,多数情况下采用这种方法制作的PDF文件没有进行字符识别。
---- 从以上的介绍我们可以看出,PDF文件中的文字存在两种可能性: 其一,可能是以计算机字符代码的形式被包裹在文件中其二,也可能只是一个页面图像中的像素组成的线条,没有字符代码信息。很明显,只有第一种PDF文档可以通过Word打开和编辑。
让Word读取PDF文档
---- 下面我们就来看一下如何让Word读取包含字符信息的PDF文档。由于Adobe公司在2000年就发布了4.x版本的Acrobat Reader,比以往的版本功能有所增强,所以我们就以这个版本为例来讨论。
---- 实际上,Word至今也没有PDF文档的转换器,因而无法对其直接读取。我们采用的还是"剪刀+浆糊"的办法。
---- 1.拷贝文字
---- 通常情况下,如果需要拷贝PDF中某一页面上的所有文字,您可以进行如下 *** 作。
定位页面。
单击工具栏上的"Text Select Tool"按钮。
选择"Edit"*"Select All",再选择"Copy"(如图1所示)。
切换到Word,按"粘贴"按钮(或Ctrl+v)把内容贴到Word文档中。
--- 如果需要拷贝的是整篇PDF文档,则可以按照下面的步骤进行。
打开PDF文件后,选择"View"*"Continuous"(如图2所示)。
选择"Edit"*"Select All"。
拷贝选中的内容。
切换到Word,粘贴内容。
---- 使用这种方法拷贝到Word文档中的文字会保持基本的字符格式,比如粗体、斜体、字符大小等等,但是不会具有样式等方面的设置。对于较复杂的文档,可能需要耐心进行调整。
---- 2.拷贝图片
---- 如果需要拷贝PDF文档中的图片,首先要找出一个隐藏的工具按钮"Graphics Select Tool"。具体办法如下。
---- (1)按下"Text Select Tool"按钮,不要松开鼠标左键,该按钮会向右延展,显示出额外的几个按钮(如图3所示)。根据按钮的文字提示,选择正确的按钮(熟悉Photoshop、CorelDraw等绘图软件的用户对于这种一钮多用的情况并不陌生)。
---- (2)把鼠标指针移到PDF页面上,此时指针呈十字形。拖动选择好图片区域,拷贝。
---- (3)回到Word文档,粘贴即可。
---- 拷贝图片不仅支持拷贝PDF文档中的图片到Word,实际上,我们可以选择任意区域,如文字区、图片区、文字和图片混合区,拷贝后粘贴到Word中,它们都会被当作图片插入到Word文档。
---- 需要注意的是,有的PDF文档由于制作的时候设置了某些安全选项,禁止我们拷贝其内容。如果要了解这方面的设置,可以通过选择"File"*"Document Info"*"Security"查看(如图4所示)。如果其中的"Selecting Text and Graphics"一项被设置为"No",这时上述拷贝文字和图像方法就不起作用了。此时,惟一的权宜之计就是使用Print Screen键或者其他的抓图软件获取某些PDF文档的画面。
打开阅读pdf文件,用Adobe Reader XI或Adobe Acrobat XI Pro软件即可。如果你要将扫描版的PDF文字内容选择复制的话,则要通过OCR识别转换,将图形文字转换为电子文字,你可用Adobe Acrobat XI Pro软件进行进行OCR转换。也可用汉王PDF OCR8.1简体中文版的PDF识别软件,简单易用免费,网上有下载。1、首先要下载一个处理pdf的组件pdfminer,百度搜索去官网下载2、下载完成解压以后,打开cmd进入用命令安装。python setup.py install 进行安装
3、我们来测试一下是否安装成功了,引入这个模块,运行一下代码,没有报错就说明安装成功了
4、官网有文档也有代码示例
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
fp = open('mypdf.pdf', 'rb')
#创建一个PDF文档解析器对象
parser = PDFParser(fp)
#创建一个PDF文档对象存储文档结构
#提供密码初始化,没有就不用传该参数
document = PDFDocument(parser, password)
#检查文件是否允许文本提取
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
#创建一个PDF资源管理器对象来存储共享资源
rsrcmgr = PDFResourceManager()
#创建一个pdf设备对象
device = PDFDevice(rsrcmgr)
#创建一个PDF解析器对象
interpreter = PDFPageInterpreter(rsrcmgr, device)
#处理文档当中的每个页面
for page in PDFPage.create_pages(document):
interpreter.process_page(page)
5、我新建一个pdf,新输入一些内容
6、运行一下代码即可
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)