如何在数千个PDF文件中抓取表格？

零点研究咨询集团 • 2022-11-18 • 随笔 • 阅读 3

如何在数千个PDF文件中抓取表格？

我以前不知道这一点，但是

less

具有读取pdf文件的这种神奇能力。我可以使用以下脚本从您的示例pdf中提取表数据：

import subprocessimport reoutput = subprocess.check_output(["less","BAG_15m_kzh_2012_de.pdf"])re_data_prefix = re.compile("^[0-9]+[.].*$")re_data_fields = re.compile("(([^ ]+[ ]?)+)")for line in output.splitlines():    if re_data_prefix.match(line):        print [l[0].strip() for l in re_data_fields.findall(line)]

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5173174.html

文件这一点示例抓取提取

打赏

微信扫一扫

支付宝扫一扫

零点研究咨询集团一级用户组

调整大小和裁剪图像并保持高宽比NodeJS和gm

上一篇 2022-11-19

Heroku构建因Yarn和npm lockfile冲突而失败

下一篇 2022-11-18

发表评论

登录后才能评论

评论列表（0条）