用python从pdf文件中提取表格(简化版)

用python从pdf文件中提取表格(简化版),第1张

  def readFromPdfAndStroe(fnamein,pagestart,pagesend,fnameout)->None:
       df = pd.core.frame.DataFrame(camelot.read_pdf(
           fnamein, pages=str(pagestart), flavor='stream')[0].data)
       for x in range(pagestart+1, pagesend):
           print(x)
           tt = pd.core.frame.DataFrame(camelot.read_pdf(
               fnamein, pages=str(x), flavor='stream')[0].data)
           df.reset_index(drop=True, inplace=True)
           df = df.append(tt)   # Example, adndt-99-69.pdf

       df.reset_index(drop=True, inplace=True)
       df.to_json(fnameout+'.json')  # outfname
       df.to_excel(fnameout+'.xlsx', index=False)
       df.to_csv(fnameout+'.csv')


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/715553.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-25
下一篇 2022-04-25

发表评论

登录后才能评论

评论列表(0条)

保存