Python解析PDF表格——PDFPlumber vs Camelot

Python解析PDF表格——PDFPlumber vs Camelot,第1张

题图来自 Camelot: List o’ 10 Intriguing Mythical Places

为获取LEED认证项目的评分表明细,可以从USGBC的项目页面上爬取,或者从pdf格式的项目评分表中解析得到。以 重庆某LEED EM:OB v2009 Gold项目 为例,USGBC上公布的 LEED项目得分表 其格式并不统一,利用XPath爬取后需要进一步清洗处理。相对而言,LEED项目所对应的 项目评分表PDF文件 的数据更为规范完整。因此考虑尝试解析出PDF文件中的表格,以便后续分析。

Python 处理PDF文件的程序包,pdfminer、tabula、pdfplumber、camelot……查询资料表明,似乎普遍认为pdfminer的效果不怎么好,而tabula需要java支持 ,想偷懒于是只试了pdfplumber和camelot。

安装过程不赘述,直接来看运行结果。

pdfplumber无法直接解析出Scorecard.pdf文件中的表格,但实际上要解决此问题也并非难事。调整下思路,可先解析出pdf文件中的文本,让后通过分列来得到表格。

利用pdfplumber的extract_text()命令可解析出pdf文件中的文本,但由于本次需要解析的得分表pdf文件的排版的原因,左右两个表格的文本行并未完全对齐,因此如果直接解析完整页面上的文本的话,文字会出错。先用corp()命令指定识别范围,然后再extract_text(),识别得到的文本列表如下所示。

对于类似本例中Scorecard.pdf表格排版有错位的情况,也可以按照表格在页面中所处的位置,指定表格识别的范围。所用到的指令:camelot.plot()可以绘制出页面的略图,table_area参数可以指定表格识别的范围。

又及,Camelot原来是亚瑟王和圆桌骑士们的宫殿所在地,和Asgard的Valhalla一样,也是传说中的圣域。搜索camelot程序安装包时无意中学到的,涨知识了。

[1] Python:解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比

[2] 用Python提取pdf文件中的表格数据

[3] python读取pdf文件

[4] Github: pdfplumber

[5] Camelot: PDF Table Extraction for Humans

[6] ImageMagick Installation

[7] ImageMagick之PDF转换成图片(image)

[8] LEED 2009 for Existing Buildings: Operations &Maintenance

[9] Camelot - Wikipedia

[10] List o’ 10 Intriguing Mythical Places

[11] Camelot识别pdf表格时的参数设置补充

【程序1】

题目:有1、2、3、4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少?

1.程序分析:可填在百位、十位、个位的数字都是1、2、3、4。组成所有的排列后再去

掉不满足条件的排列。

2.程序源代码

main()

{

int i,j,k

printf("\n")

for(i=1i<5i++)

 for(j=1j<5j++)

for (k=1k<5k++)

 {

if (i!=k&&i!=j&&j!=k)

printf("%d,%d,%d\n",i,j,k)

 }

}

【程序2】

题目:企业发放的奖金根据利润提成。利润(I)低于或等于10万元时,奖金可提10%;利润高

 于10万元,低于20万元时,低于10万元的部分按10%提成,高于10万元的部分,可可提

 成7.5%;20万到40万之间时,高于20万元的部分,可提成5%;40万到60万之间时高于

 40万元的部分,可提成3%;60万到100万之间时,高于60万元的部分,可提成1.5%,高于

 100万元时,超过100万元的部分按1%提成,从键盘输入当月利润I,求应发放奖金总数?

1.程序分析:请利用数轴来分界,定位。注意定义时需把奖金定义成长整型。

2.程序源代码:

main()

{

long int i

int bonus1,bonus2,bonus4,bonus6,bonus10,bonus

scanf("%ld",&i)

bonus1=100000*0.1bonus2=bonus1+100000*0.75

bonus4=bonus2+200000*0.5

bonus6=bonus4+200000*0.3

bonus10=bonus6+400000*0.15

 if(i<=100000)

bonus=i*0.1

 else if(i<=200000)

 bonus=bonus1+(i-100000)*0.075

else if(i<=400000)

bonus=bonus2+(i-200000)*0.05

 else if(i<=600000)

 bonus=bonus4+(i-400000)*0.03

else if(i<=1000000)

bonus=bonus6+(i-600000)*0.015

 else

bonus=bonus10+(i-1000000)*0.01

printf("bonus=%d",bonus)

}

【程序3】

题目:一个整数,它加上100后是一个完全平方数,再加上168又是一个完全平方数,请问该数是多少?

1.程序分析:在10万以内判断,先将该数加上100后再开方,再将该数加上268后再开方,如果开方后

的结果满足如下条件,即是结果。请看具体分析:

2.程序源代码:

#i nclude "math.h"

main()

{

long int i,x,y,z

for (i=1i<100000i++)

 { x=sqrt(i+100)/*x为加上100后开方后的结果*/

y=sqrt(i+268)/*y为再加上168后开方后的结果*/

 if(x*x==i+100&&y*y==i+268)/*如果一个数的平方根的平方等于该数,这说明此数是完全平方数*/

printf("\n%ld\n",i)

 }

}

【程序4】

题目:输入某年某月某日,判断这一天是这一年的第几天?

1.程序分析:以3月5日为例,应该先把前两个月的加起来,然后再加上5天即本年的第几天,特殊

情况,闰年且输入月份大于3时需考虑多加一天。

2.程序源代码:

main()

{

int day,month,year,sum,leap

printf("\nplease input year,month,day\n")

scanf("%d,%d,%d",&year,&month,&day)

switch(month)/*先计算某月以前月份的总天数*/

{

 case 1:sum=0break

 case 2:sum=31break

 case 3:sum=59break

 case 4:sum=90break

 case 5:sum=120break

 case 6:sum=151break

 case 7:sum=181break

 case 8:sum=212break

 case 9:sum=243break

 case 10:sum=273break

 case 11:sum=304break

 case 12:sum=334break

 default: printf("data error")break

}

sum=sum+day/*再加上某天的天数*/

 if(year%400==0||(year%4==0&&year%100!=0))/*判断是不是闰年*/

leap=1

 else

leap=0

if(leap==1&&month>2)/*如果是闰年且月份大于2,总天数应该加一天*/

sum++

printf("It is the %dth day.",sum)}

【程序5】

题目:输入三个整数x,y,z,请把这三个数由小到大输出。

1.程序分析:我们想办法把最小的数放到x上,先将x与y进行比较,如果x>y则将x与y的值进行交换,

然后再用x与z进行比较,如果x>z则将x与z的值进行交换,这样能使x最小。

2.程序源代码:

main()

{

int x,y,z,t

scanf("%d%d%d",&x,&y,&z)

if (x>y)

{t=xx=yy=t} /*交换x,y的值*/

if(x>z)

{t=zz=xx=t}/*交换x,z的值*/

if(y>z)

{t=yy=zz=t}/*交换z,y的值*/

printf("small to big: %d %d %d\n",x,y,z)

}

【程序6】

题目:用*号输出字母C的图案。

1.程序分析:可先用'*'号在纸上写出字母C,再分行输出。

2.程序源代码:

#i nclude "stdio.h"

main()

{

printf("Hello C-world!\n")

printf(" ****\n")

printf(" *\n")

printf(" * \n")

printf(" ****\n")

}

【程序7】

题目:输出特殊图案,请在c环境中运行,看一看,Very Beautiful!

1.程序分析:字符共有256个。不同字符,图形不一样。

2.程序源代码:

#i nclude "stdio.h"

main()

{

char a=176,b=219

printf("%c%c%c%c%c\n",b,a,a,a,b)

printf("%c%c%c%c%c\n",a,b,a,b,a)

printf("%c%c%c%c%c\n",a,a,b,a,a)

printf("%c%c%c%c%c\n",a,b,a,b,a)

printf("%c%c%c%c%c\n",b,a,a,a,b)}

【程序8】

题目:输出9*9口诀。

1.程序分析:分行与列考虑,共9行9列,i控制行,j控制列。

2.程序源代码:

#i nclude "stdio.h"

main()

{

 int i,j,result

 printf("\n")

 for (i=1i<10i++)

{ for(j=1j<10j++)

{

 result=i*j

 printf("%d*%d=%-3d",i,j,result)/*-3d表示左对齐,占3位*/

}

 printf("\n")/*每一行后换行*/

}

}

【程序9】

题目:要求输出国际象棋棋盘。

1.程序分析:用i控制行,j来控制列,根据i+j的和的变化来控制输出黑方格,还是白方格。

2.程序源代码:

#i nclude "stdio.h"

main()

{

int i,j

for(i=0i<8i++)

 {

for(j=0j<8j++)

 if((i+j)%2==0)

printf("%c%c",219,219)

 else

printf(" ")

 printf("\n")

 }

}

【程序10】

题目:打印楼梯,同时在楼梯上方打印两个笑脸。

1.程序分析:用i控制行,j来控制列,j根据i的变化来控制输出黑方格的个数。

2.程序源代码:

#i nclude "stdio.h"

main()

{

int i,j

printf("\1\1\n")/*输出两个笑脸*/

for(i=1i<11i++)

 {

 for(j=1j<=ij++)

   printf("%c%c",219,219)

 printf("\n")

 }

}

【程序11】

题目:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月

 后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少?

1.程序分析: 兔子的规律为数列1,1,2,3,5,8,13,21....

2.程序源代码:

main()

{

long f1,f2

int i

f1=f2=1

for(i=1i<=20i++)

 { printf("%12ld %12ld",f1,f2)

 if(i%2==0) printf("\n")/*控制输出,每行四个*/

 f1=f1+f2/*前两个月加起来赋值给第三个月*/

 f2=f1+f2/*前两个月加起来赋值给第三个月*/

 }

}

【程序12】

题目:判断101-200之间有多少个素数,并输出所有素数。

1.程序分析:判断素数的方法:用一个数分别去除2到sqrt(这个数),如果能被整除,

则表明此数不是素数,反之是素数。

2.程序源代码:

#i nclude "math.h"

main()

{

 int m,i,k,h=0,leap=1

 printf("\n")

 for(m=101m<=200m++)

{ k=sqrt(m+1)

 for(i=2i<=ki++)

 if(m%i==0)

{leap=0break}

 if(leap) {printf("%-4d",m)h++

if(h%10==0)

printf("\n")

  }

 leap=1

}

 printf("\nThe total is %d",h)

}

【程序13】

题目:打印出所有的“水仙花数”,所谓“水仙花数”是指一个三位数,其各位数字立方和等于该数

 本身。例如:153是一个“水仙花数”,因为153=1的三次方+5的三次方+3的三次方。

1.程序分析:利用for循环控制100-999个数,每个数分解出个位,十位,百位。

2.程序源代码:

main()

{

int i,j,k,n

printf("'water flower'number is:")

 for(n=100n<1000n++)

 {

i=n/100/*分解出百位*/

j=n/10%10/*分解出十位*/

k=n%10/*分解出个位*/

if(i*100+j*10+k==i*i*i+j*j*j+k*k*k)

 {

 printf("%-5d",n)

 }

 }

printf("\n")

}

【程序14】

题目:将一个正整数分解质因数。例如:输入90,打印出90=2*3*3*5。

程序分析:对n进行分解质因数,应先找到一个最小的质数k,然后按下述步骤完成:

(1)如果这个质数恰等于n,则说明分解质因数的过程已经结束,打印出即可。

(2)如果n<>k,但n能被k整除,则应打印出k的值,并用n除以k的商,作为新的正整数你n,

 重复执行第一步。

(3)如果n不能被k整除,则用k+1作为k的值,重复执行第一步。

2.程序源代码:

/* zheng int is divided yinshu*/

main()

{

int n,i

printf("\nplease input a number:\n")

scanf("%d",&n)

printf("%d=",n)

for(i=2i<=ni++)

 {

while(n!=i)

{

 if(n%i==0)

 { printf("%d*",i)

n=n/i

 }

 else

break

}

}

printf("%d",n)}

【程序15】

题目:利用条件运算符的嵌套来完成此题:学习成绩>=90分的同学用A表示,60-89分之间的用B表示,

 60分以下的用C表示。

1.程序分析:(a>b)?a:b这是条件运算符的基本例子。

2.程序源代码:

main()

{

 int score

 char grade

 printf("please input a score\n")

 scanf("%d",&score)

 grade=score>=90? 'A': (score>=60? 'B':'C')

 printf("%d belongs to %c",score,grade)

}

【程序16】

题目:输入两个正整数m和n,求其最大公约数和最小公倍数。

1.程序分析:利用辗除法。

2.程序源代码:

main()

{

 int a,b,num1,num2,temp

 printf("please input two numbers:\n")

 scanf("%d,%d",&num1,&num2)

 if(num1 { temp=num1

num1=num2

num2=temp

 }

a=num1b=num2

while(b!=0)/*利用辗除法,直到b为0为止*/

 {

temp=a%b

a=b

b=temp

 }

printf("gongyueshu:%d\n",a)

printf("gongbeishu:%d\n",num1*num2/a)

}

【程序17】

题目:输入一行字符,分别统计出其中英文字母、空格、数字和其它字符的个数。

1.程序分析:利用while语句,条件为输入的字符不为'\n'.

2.程序源代码:

#i nclude "stdio.h"

main()

{char c

 int letters=0,space=0,digit=0,others=0

 printf("please input some characters\n")

 while((c=getchar())!='\n')

 {

 if(c>='a'&&c<='z'||c>='A'&&c<='Z')

letters++

 else if(c==' ')

space++

 else if(c>='0'&&c<='9')

 digit++

 else

 others++

}

printf("all in all:char=%d space=%d digit=%d

others=%d\n",letters,

space,digit,others)

}

【程序18】

题目:求s=a+aa+aaa+aaaa+aa...a的值,其中a是一个数字。例如2+22+222+2222+22222(此时

 共有5个数相加),几个数相加有键盘控制。

1.程序分析:关键是计算出每一项的值。

2.程序源代码:

main()

{

 int a,n,count=1

 long int sn=0,tn=0

 printf("please input a and n\n")

 scanf("%d,%d",&a,&n)

 printf("a=%d,n=%d\n",a,n)

 while(count<=n)

 {

tn=tn+a

sn=sn+tn

a=a*10

++count

 }

printf("a+aa+...=%ld\n",sn)

}

【程序19】

题目:一个数如果恰好等于它的因子之和,这个数就称为“完数”。例如6=1+2+3.编程

 找出1000以内的所有完数。

1. 程序分析:请参照程序<--程序14.

2.程序源代码:

main()

{

static int k[10]

int i,j,n,s

for(j=2j<1000j++)

 {

 n=-1

 s=j

for(i=1i {

 if((j%i)==0)

 {n++

s=s-i

k[n]=i

 }

}

 if(s==0)

 {

 printf("%d is a wanshu",j)

 for(i=0i printf("%d,",k)

 printf("%d\n",k[n])

 }

}

}

【程序20】

题目:一球从100米高度自由落下,每次落地后反跳回原高度的一半;再落下,求它在

 第10次落地时,共经过多少米?第10次反d多高?

1.程序分析:见下面注释

2.程序源代码:

main()

{

float sn=100.0,hn=sn/2

int n

for(n=2n<=10n++)

 {

sn=sn+2*hn/*第n次落地时共经过的米数*/

hn=hn/2/*第n次反跳高度*/

 }

printf("the total of road is %f\n",sn)

printf("the tenth is %f meter\n",hn)

}

其他的等整理出来再发! :) :)

【程序21】

题目:猴子吃桃问题:猴子第一天摘下若干个桃子,当即吃了一半,还不瘾,又多吃了一个

 第二天早上又将剩下的桃子吃掉一半,又多吃了一个。以后每天早上都吃了前一天剩下

 的一半零一个。到第10天早上想再吃时,见只剩下一个桃子了。求第一天共摘了多少。

1.程序分析:采取逆向思维的方法,从后往前推断。

2.程序源代码:

main()

{

int day,x1,x2

day=9

x2=1

while(day>0)

 {x1=(x2+1)*2/*第一天的桃子数是第2天桃子数加1后的2倍*/

 x2=x1

 day--

 }

printf("the total is %d\n",x1)

}

==============================================================

【程序22】

题目:两个乒乓球队进行比赛,各出三人。甲队为a,b,c三人,乙队为x,y,z三人。已抽签决定

 比赛名单。有人向队员打听比赛的名单。a说他不和x比,c说他不和x,z比,请编程序找出

 三队赛手的名单。

1.程序分析:判断素数的方法:用一个数分别去除2到sqrt(这个数),如果能被整除,

则表明此数不是素数,反之是素数。

2.程序源代码:

main()

{

char i,j,k/*i是a的对手,j是b的对手,k是c的对手*/

for(i='x'i<='z'i++)

 for(j='x'j<='z'j++)

 {

 if(i!=j)

for(k='x'k<='z'k++)

{ if(i!=k&&j!=k)

 { if(i!='x'&&k!='x'&&k!='z')

 printf("order is a--%c\tb--%c\tc--%c\n",i,j,k)

 }

}

 }

}

==============================================================

【程序23】

题目:打印出如下图案(菱形)

*

***

******

********

******

***

*

1.程序分析:先把图形分成两部分来看待,前四行一个规律,后三行一个规律,利用双重

for循环,第一层控制行,第二层控制列。

2.程序源代码:

main()

{

int i,j,k

for(i=0i<=3i++)

 {

 for(j=0j<=2-ij++)

printf(" ")

 for(k=0k<=2*ik++)

printf("*")

 printf("\n")

 }

for(i=0i<=2i++)

 {

 for(j=0j<=ij++)

printf(" ")

 for(k=0k<=4-2*ik++)

printf("*")

 printf("\n")

 }

}

==============================================================

【程序24】

题目:有一分数序列:2/1,3/2,5/3,8/5,13/8,21/13...求出这个数列的前20项之和。

1.程序分析:请抓住分子与分母的变化规律。

2.程序源代码:

main()

{

int n,t,number=20

float a=2,b=1,s=0

for(n=1n<=numbern++)

 {

 s=s+a/b

 t=aa=a+bb=t/*这部分是程序的关键,请读者猜猜t的作用*/

 }

printf("sum is %9.6f\n",s)

}

==============================================================

【程序25】

题目:求1+2!+3!+...+20!的和

1.程序分析:此程序只是把累加变成了累乘。

2.程序源代码:

main()

{

float n,s=0,t=1

for(n=1n<=20n++)

 {

 t*=n

 s+=t

 }

printf("1+2!+3!...+20!=%e\n",s)

}

==============================================================

【程序26】

题目:利用递归方法求5!。

1.程序分析:递归公式:fn=fn_1*4!

2.程序源代码:

#i nclude "stdio.h"

main()

{

int i

int fact()

for(i=0i<5i++)

 printf("\40:%d!=%d\n",i,fact(i))

}

int fact(j)

int j

{

int sum

if(j==0)

 sum=1

else

 sum=j*fact(j-1)

return sum

}

==============================================================

【程序27】

题目:利用递归函数调用方式,将所输入的5个字符,以相反顺序打印出来。

1.程序分析:

2.程序源代码:

#i nclude "stdio.h"

main()

{

int i=5

void palin(int n)

printf("\40:")

palin(i)

printf("\n")

}

void palin(n)

int n

{

char next

if(n<=1)

 {

 next=getchar()

 printf("\n\0:")

 putchar(next)

 }

else

 {

 next=getchar()

 palin(n-1)

 putchar(next)

 }

}

==============================================================

【程序28】

题目:有5个人坐在一起,问第五个人多少岁?他说比第4个人大2岁。问第4个人岁数,他说比第

 3个人大2岁。问第三个人,又说比第2人大两岁。问第2个人,说比第一个人大两岁。最后

 问第一个人,他说是10岁。请问第五个人多大?

1.程序分析:利用递归的方法,递归分为回推和递推两个阶段。要想知道第五个人岁数,需知道

第四人的岁数,依次类推,推到第一人(10岁),再往回推。

2.程序源代码:

age(n)

int n

{

int c

if(n==1) c=10

else c=age(n-1)+2

return(c)

}

main()

{ printf("%d",age(5))

}

==============================================================

【程序29】

题目:给一个不多于5位的正整数,要求:一、求它是几位数,二、逆序打印出各位数字。

1. 程序分析:学会分解出每一位数,如下解释:(这里是一种简单的算法,师专数002班赵鑫提供)

2.程序源代码:

main( )

{

long a,b,c,d,e,x

scanf("%ld",&x)

a=x/10000/*分解出万位*/

b=x%10000/1000/*分解出千位*/

c=x%1000/100/*分解出百位*/

d=x%100/10/*分解出十位*/

e=x%10/*分解出个位*/

if (a!=0) printf("there are 5, %ld %ld %ld %ld

%ld\n",e,d,c,b,a)

else if (b!=0) printf("there are 4, %ld %ld %ld

%ld\n",e,d,c,b)

else if (c!=0) printf(" there are 3,%ld %ld

%ld\n",e,d,c)

else if (d!=0) printf("there are 2, %ld

%ld\n",e,d)

else if (e!=0) printf(" there are

1,%ld\n",e)

}

==============================================================

【程序30】

题目:一个5位数,判断它是不是回文数。即12321是回文数,个位与万位相同,十位与千位相同。 

1.程序分析:同29例

2.程序源代码:

main( )

{

long ge,shi,qian,wan,x

scanf("%ld",&x)

wan=x/10000

qian=x%10000/1000

shi=x%100/10

ge=x%10

if (ge==wan&&shi==qian)/*个位等于万位并且十位等于千位*/

 printf("this number is a huiwen\n")

else

 printf("this number is not a huiwen\n")

}

【程序31】

题目:请输入星期几的第一个字母来判断一下是星期几,如果第一个字母一样,则继续

 判断第二个字母。

1.程序分析:用情况语句比较好,如果第一个字母一样,则判断用情况语句或if语句判断第二个字母。

2.程序源代码:

#i nclude <stdio.h>

void main()

{

char letter

printf("please input the first letter of

someday\n")

while ((letter=getch())!='Y')/*当所按字母为Y时才结束*/

{ switch (letter)

{case 'S':printf("please input second letter\n")

 if((letter=getch())=='a')

printf("saturday\n")

 else if ((letter=getch())=='u')

 printf("sunday\n")

 else printf("data error\n")

 break

case 'F':printf("friday\n")break

case 'M':printf("monday\n")break

case 'T':printf("please input second letter\n")

 if((letter=getch())=='u')

printf("tuesday\n")

 else if ((letter=getch())=='h')

 printf("thursday\n")

 else printf("data error\n")

 break

case 'W':printf("wednesday\n")break

default: printf("data error\n")

}

 }

}

==============================================================

【程序32】

题目:Press any key to change color, do you want to

try it. Please hurry up!

1.程序分析:

2.程序源代码:

#i nclude <conio.h>

void main(void)

{

int color

for (color = 0color <8color++)

 {

 textbackground(color)/*设置文本的背景颜色*/

 cprintf("This is color %d\r\n", color)

 cprintf("Press any key to continue\r\n")

 getch()/*输入字符看不见*/

 }

}

==============================================================

【程序33】

题目:学习gotoxy()与clrscr()函数 

1.程序分析:

2.程序源代码:

#i nclude <conio.h>

void main(void)

{

clrscr()/*清屏函数*/

textbackground(2)

gotoxy(1, 5)/*定位函数*/

cprintf("Output at row 5 column 1\n")

textbackground(3)

gotoxy(20, 10)

cprintf("Output at row 10 column 20\n")

}

==============================================================

【程序34】

题目:练习函数调用

1. 程序分析:

2.程序源代码:

#i nclude <stdio.h>

void hello_world(void)

{

printf("Hello, world!\n")

}

void three_hellos(void)

{

int counter

for (counter = 1counter <= 3counter++)

hello_world()/*调用此函数*/

}

void main(void)

{

three_hellos()/*调用此函数*/

}


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11500790.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-16
下一篇 2023-05-16

发表评论

登录后才能评论

评论列表(0条)

保存