我以前不知道这一点,但是
less具有读取pdf文件的这种神奇能力。我可以使用以下脚本从您的示例pdf中提取表数据:
import subprocessimport reoutput = subprocess.check_output(["less","BAG_15m_kzh_2012_de.pdf"])re_data_prefix = re.compile("^[0-9]+[.].*$")re_data_fields = re.compile("(([^ ]+[ ]?)+)")for line in output.splitlines(): if re_data_prefix.match(line): print [l[0].strip() for l in re_data_fields.findall(line)]
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)