Python解析PDF表格——PDFPlumber vs Camelot

Python解析PDF表格——PDFPlumber vs Camelot,第1张

题图来自 Camelot: List o’ 10 Intriguing Mythical Places

为获取LEED认证项目的评分表明细,可以从USGBC的项目页面上爬取,或者从pdf格式的项目评分表中解析得到。以 重庆某LEED EM:OB v2009 Gold项目 为例,USGBC上公布的 LEED项目得分表 其格式并不统一,利用XPath爬取后需要进一步清洗处理。相对而言,LEED项目所对应的 项目评分表PDF文件 的数据更为规范完整。因此考虑尝试解析出PDF文件中的表格,以便后续分析。

Python 处理PDF文件的程序包,pdfminer、tabula、pdfplumber、camelot……查询资料表明,似乎普遍认为pdfminer的效果不怎么好,而tabula需要java支持 ,想偷懒于是只试了pdfplumber和camelot。

安装过程不赘述,直接来看运行结果。

pdfplumber无法直接解析出Scorecardpdf文件中的表格,但实际上要解决此问题也并非难事。调整下思路,可先解析出pdf文件中的文本,让后通过分列来得到表格。

利用pdfplumber的extract_text()命令可解析出pdf文件中的文本,但由于本次需要解析的得分表pdf文件的排版的原因,左右两个表格的文本行并未完全对齐,因此如果直接解析完整页面上的文本的话,文字会出错。先用corp()命令指定识别范围,然后再extract_text(),识别得到的文本列表如下所示。

对于类似本例中Scorecardpdf表格排版有错位的情况,也可以按照表格在页面中所处的位置,指定表格识别的范围。所用到的指令:camelotplot()可以绘制出页面的略图,table_area参数可以指定表格识别的范围。

又及,Camelot原来是亚瑟王和圆桌骑士们的宫殿所在地,和Asgard的Valhalla一样,也是传说中的圣域。搜索camelot程序安装包时无意中学到的,涨知识了。

[1] Python:解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比

[2] 用Python提取pdf文件中的表格数据

[3] python读取pdf文件

[4] Github: pdfplumber

[5] Camelot: PDF Table Extraction for Humans

[6] ImageMagick Installation

[7] ImageMagick之PDF转换成(image)

[8] LEED 2009 for Existing Buildings: Operations & Maintenance

[9] Camelot - Wikipedia

[10] List o’ 10 Intriguing Mythical Places

[11] Camelot识别pdf表格时的参数设置补充

正确的安装方法是输入:setuppy install

以下是详细步骤:

第一步:下载pdfminer

>

转自HackRead,作者 Uzair Amir,蓝色摩卡译,合作站点转载请注明原文译者和出处为超级盾!

恶意软件和间谍软件是两个最常与台式电脑有关的安全问题。虽然电脑确实容易感染恶意软件,但不要忽视移动设备也会受到感染的事实。 当智能手机感染了恶意软件,它会导致几个问题,包括黑客会窃取用户的信息。

智能手机用户必须意识到许多安全威胁,包括最近黑客实施的生物信息劫持(指纹等个人信息)。当手机感染病毒时,如果没有检测到, 会导致几个问题,包括勒索软件、密码盗窃和机密数据窃取。

此外,还有可能导致智能手机物理功能问题的恶意软件。 这里有7个迹象表明你的智能手机被恶意软件感染了:

要想知道我的手机是否感染了病毒, 首先要注意的是数据使用量的突然增加 。尽管智能手机上的一些应用程序和 游戏 可能会有大量数据。

但当没有明显原因的数据使用量突然增加时,这可能是手机感染了病毒的迹象 ,尤其是像ADB这样的恶意软件。Miner(挖矿病毒)以在Android手机和智能电视上挖掘Monero硬币而闻名。

iOS和Android都在设置应用程序中提供了一个部分,允许智能手机用户了解他们的设备上使用了多少数据。 Android设备也将能够提供一个图表,显示特定时间段内的数据使用情况——这使得检测突然增长变得很容易。

Android:

iPhone:

要打开或关闭蜂窝数据,请进入“设置”,然后点击“蜂窝数据”或“移动数据”。 如果你使用iPad,你可能会看到设置>蜂窝数据。 如果你使用的是双卡iPhone ,你需要将你的一个套餐设置为主数据号 ,以便查看你使用了多少手机数据。

另一个可能预示智能手机感染的常见信号是电池突然开始以比平时更快的速度耗尽。 虽然这有时可能是电池损坏的迹象,但也有多种病毒可能导致智能手机电池迅速耗尽

因此,如果在学习如何检查手机是否有病毒时出现了这个问题, 那么在花钱更换电池之前,应该先扫描手机是否有病毒感染。 在2019年2月,研究人员揭露了一场主要的安卓广告诈骗活动,名为“排放机器人”(DrainerBot),它会消耗电池和窃取设备的数据。

市场上一些最新的智能手机往往配备了强大的处理器和足够的内存,以便轻松处理应用程序和 游戏 中使用的最新技术。 当这种智能手机突然开始缺乏性能时(比方变卡),这也可能是该设备感染了病毒的迹象。

有时只有在进入需要强大的CPU和GPU的 游戏 时,才会注意到糟糕的性能。在其他情况下, 病毒也可能导致移动设备的总体性能下降——即使是在执行简单的任务时,比如打电话或读短信变卡或无法正常运行

除了发现这款智能手机在性能方面存在不足外,还有一个迹象表明它感染 HiddenMiner之类的恶意软件,那就是过热了 。这在大多数智能手机中并不常见;因此,当出现过热问题时,病毒扫描可以帮助检查手机上的恶意软件。

感染智能手机的病毒有时会导致不熟悉的应用程序自动安装。 因此,当应用程序在用户不知情的情况下出现在手机上时,这可能是设备感染病毒的又一个迹象。

每个不熟悉的应用程序都应该有一个概述,这通常是来自写作服务。所以安装某些程序之前,最好看看过去使用过该应用程序的评论者很重要。 当应用程序看起来可疑时,不仅要删除它,还应该彻底扫描设备,以寻找可能的病毒残留痕迹。

如果你想知道我的手机是否感染了恶意软件,你应该警惕自己的移动数据和Wi-Fi开关。 由于病毒通常会通过互联网发送和接收数据,在用户禁用移动数据或Wi-Fi连接后,感染可能会导致数据被打开。

另一个恼人的、但却是移动设备上病毒的明显标志就是d出式广告。 这些广告通常会在用户离开应用程序并停留在手机主页上之后才出现。 d出式广告有时会显示不合适的广告,或将用户带到智能手机应用商店的移动应用程序。

恶意软件可以影响台式电脑和移动设备。 当智能手机受到影响时,它会导致个人数据泄露给黑客。

在这些情况下,会出现几个问题,包括可能存储在智能手机上的xyk信息 。那些怀疑自己可能被感染的人应该学习如何发现自己的手机是否有病毒。 这可以帮助他们采取行动,以消除病毒和保护他们的敏感数据。

精彩在后面

Hi,我是超级盾

更多干货,可移步到,微信公众号:超级盾订阅号!精彩与您不见不散!

超级盾能做到:防得住、用得起、接得快、玩得好、看得见、双向数据加密!

截至到目前,超级盾 成功抵御史上最大247T黑客DDoS攻击,超级盾具有无限防御DDoS、100%防CC的优势

以上就是关于Python解析PDF表格——PDFPlumber vs Camelot全部的内容,包括:Python解析PDF表格——PDFPlumber vs Camelot、请教在python3中安装pdfminer.six的方法、这7个迹象出现,说明手机上可能有恶意软件等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/9855309.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-02
下一篇 2023-05-02

发表评论

登录后才能评论

评论列表(0条)

保存