如何在数千个PDF文件中抓取表格?

如何在数千个PDF文件中抓取表格?,第1张

如何在数千个PDF文件中抓取表格?

我以前不知道这一点,但是

less
具有读取pdf文件的这种神奇能力。我可以使用以下脚本从您的示例pdf中提取表数据:

import subprocessimport reoutput = subprocess.check_output(["less","BAG_15m_kzh_2012_de.pdf"])re_data_prefix = re.compile("^[0-9]+[.].*$")re_data_fields = re.compile("(([^ ]+[ ]?)+)")for line in output.splitlines():    if re_data_prefix.match(line):        print [l[0].strip() for l in re_data_fields.findall(line)]


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5173174.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-19
下一篇 2022-11-18

发表评论

登录后才能评论

评论列表(0条)

保存