(二)python编辑PDF文件:pdfplumber库 *** 作

(二)python编辑PDF文件:pdfplumber库 *** 作,第1张

文章参考知乎 >> 传送门

(一)字符 *** 作 (1)pdf文件任意页字符提取
import pdfplumber
with pdfplumber.open("D:\Desktop\1.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()  # 提取文本
        print(text)
(2)提取所有pdf文字并写入文本中
import pdfplumber
with pdfplumber.open("D:\Desktop\111.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()#提取文本
        txt_file = open("D:\Desktop\111.txt",mode='a',encoding='utf-8')
        txt_file.write(text)
(二)表格 *** 作 (1)读取pdf文件表格,并存入 list
import pdfplumber
with pdfplumber.open("D:\Desktop\1.pdf") as pdf:
    page = pdf.pages[0]
    tablet_char = page.extract_tables()
T = sum(tablet_char, [])  # by sum, descent the dimension of tablet object
for var in T:
    print(var)

注意:

  1. 单独使用 extract_tables 方法,得到的是一个只有一个对象的二维 list (即最外面还有一层
    [ ])
  2. 这里使用 sum 函数,将 tablet_char 对象和 空列表进行和运算,这里 sum 的和运算是在后面一个对象中进行的,以此实现tablet_char 对象的降维
(2)提取表格,保存为excel文件(需要import openpyxl 库)
import pdfplumber
import openpyxl
from openpyxl import Workbook #保存表格,需要安装openpyxl
with pdfplumber.open("D:\Desktop\1.pdf") as pdf:
    page01 = pdf.pages[0]
    table = page01.extract_table()
    workbook = Workbook()
    sheet = workbook.active
    for row in table:
        sheet.append(row)
    workbook.save(filename="D:\Desktop\1.xlsx")

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/577964.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-11
下一篇 2022-04-11

发表评论

登录后才能评论

评论列表(0条)

保存