Python_读取PDF文件文本内容

Python_读取PDF文件文本内容,第1张

概述经常爬虫的小伙伴,或遇到一些PDF文件的处理,可能我们要下载这个文件,并要识别里面的文本内容,今天小汪就在这里给大家分享一下怎么识别pdf文件里面的文字;话不多说,直接上代码 frompdfminer.converterimportPDFPageAggregatorfrompdfminer.pdfparserimportPDFParser,PDFDoc

经常爬虫的小伙伴,或遇到一些pdf文件的处理,可能我们要下载这个文件,并要识别里面的文本内容,今天小汪就在这里给大家分享一下怎么识别pdf文件里面的文字;话不多说,直接上代码

 

from pdfminer.converter import pdfpageAggregatorfrom pdfminer.pdfparser import pdfParser, pdfdocumentfrom pdfminer.layout import LTTextBoxHorizontal, LAParamsfrom pdfminer.pdfinterp import pdfTextExtractionNotAllowedfrom pdfminer.pdfinterp import pdfResourceManager, pdfpageInterpreterdef parser_pdf_file(pdf_file_path):    read_pdf = open(pdf_file_path, 'rb')  # 打开pdf文件。    parser_pdf = pdfParser(read_pdf)  # 用文件对象创建一个pdf文档分析器。    pdf_document = pdfdocument(parser_pdf)  # 创建一个pdf文档。    parser_pdf.set_document(pdf_document)    pdf_document.set_parser(parser_pdf)  # 连接分析器 与文档对象。    pdf_document.initialize()  # 如果没有密码,就创建一个空的字符串。    if not pdf_document.is_extractable:  # 检测文档是否提供txt转换,不提供就忽略。        raise pdfTextExtractionNotAllowed    else:        pdf_manager = pdfResourceManager()  # 创建pdf资源管理器 来管理共享资源。        pdf_laparams = LAParams()  # 创建一个pdf参数分析器。        pdf_device = pdfpageAggregator(pdf_manager, laparams=pdf_laparams)  # 创建一个聚合器        pdf_interpreter = pdfpageInterpreter(pdf_manager, pdf_device)  # 创建一个pdf页面解释器对象        # 循环遍历列表,每次处理一页的内容,pdf_document.get_pages()获取page列表        for each_page in pdf_document.get_pages():            pdf_interpreter.process_page(each_page)  # 使用页面解释器来读取            layout = pdf_device.get_result()  # 这里layout是一个LTPage对象 里面存放着这个page解析出的各种对象 一般包括LTTexBox,LTfigure,Ltimage,            # LTTexBoxHorizontal等等 想要获取文本就获得对象的text属性。            # print(layout)            for each_info in layout:                if isinstance(each_info, LTTextBoxHorizontal):                    results = each_info.get_text()                    print(results)if __name__ == '__main__':    # pdf_file_path = get_pdf_file()    parser_pdf_file(r'D:.pdf')

具体每个代表什么意思,有什么不懂的地方可以留言评论,我看到后会第一时间给大家回复的。

总结

以上是内存溢出为你收集整理的Python_读取PDF文件文本内容全部内容,希望文章能够帮你解决Python_读取PDF文件文本内容所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1189072.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存