用于Python的两个最常用的PDF库是:
- pyPdf
- 报告实验室
两者都是纯python,因此应该易于安装以及跨平台。
有了pyPdf,它可能和做起来一样简单:
from pyPdf import PdfFileReaderdoc = PdfFileReader(file("upload.pdf", "rb"))
这应该足够了,但是如果您要进行进一步检查,
doc现在将具有
documentInfo()和
numPages()方法。
正如Carl回答的那样,pdftotext也是一个很好的解决方案,并且在非常大的文档(尤其是具有很多交叉引用的文档)上可能会更快。但是,由于分叉新进程的系统开销等原因,在小PDF上可能会稍慢一些。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)