Python批量提取PDF文件中文本的脚本

Python批量提取PDF文件中文本的脚本,第1张

概述本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

本文实例为大家分享了Python批量提取pdf文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理pdf文件的扩展库。

import osimport sysimport timepdfs = (pdfs for pdfs in os.Listdir('.') if pdfs.endswith('.pdf'))for pdf1 in pdfs: pdf = pdf1.replace(' ','_').replace('-','_').replace('&','_') os.rename(pdf1,pdf) print('='*30) print(pdf)  txt = pdf[:-4] + '.txt' exe = '"' + sys.executable + '" "' pdf2txt = os.path.dirname(sys.executable) pdf2txt = pdf2txt + '\scripts\pdf2txt.py" -o ' try: #调用命令行工具pdf2txt.py进行转换 #如果pdf加密过可以改写下面的代码 #在-o前面使用-P来指定密码 cmd = exe + pdf2txt + txt + ' ' + pdf os.popen(cmd) #转换需要一定时间,一般小文件2秒钟足够了 time.sleep(2) #输出转换后的文本,前200个字符 with open(txt,enCoding='utf8') as fp:  print(fp.read(200)) except: pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持编程小技巧。

您可能感兴趣的文章:python将html转成PDF的实现代码(包含中文)Python生成pdf文件的方法Python实现将DOC文档转换为PDF的方法Python实现批量把SVG格式转成png、pdf格式的代码分享python使用reportlab实现图片转换成pdf的方法基于Python实现对PDF文件的OCR识别利用Python的Django框架生成PDF文件的教程利用python程序生成word和PDF文档的方法用python 制作图片转pdf工具批量将ppt转换为pdf的Python代码 只要27行! 总结

以上是内存溢出为你收集整理的Python批量提取PDF文件中文本的脚本全部内容,希望文章能够帮你解决Python批量提取PDF文件中文本的脚本所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1200391.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存