使用Python进行PDF解析-提取格式化和纯文本

简谱下载 • 2022-12-16 • 随笔 • 阅读 25

您还可以看一下PDFMiner（或者对于旧版本的Python，请参阅PDFMiner和PDFMiner）。

PDFMiner中感兴趣的一个特殊功能是，您可以控制在提取文本部分时如何重新组合文本部分。您可以通过指定行，单词，字符等之间的间距来执行此 *** 作。因此，也许可以通过对此进行调整来实现所需的功能（取决于文档的可变性）。PDFMiner还可以为您提供文本在页面中的位置，它可以按对象ID和其他内容提取数据。因此，挖掘PDFMiner并发挥创造力吧！

但是您的问题确实不是一个容易解决的问题，因为在PDF中，文本不是连续的，而是由许多绝对位于页面中的小字符组成的。PDF的重点是保持布局完整。它不是面向内容的，而是面向呈现的。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5645095.html

文本提取字符可变性面向

打赏

微信扫一扫

支付宝扫一扫

简谱下载一级用户组

0 0

python-查找文件中单词的出现

上一篇 2022-12-16

如何从嵌入在网页中的Tableau图形中提取工具提示值

下一篇 2022-12-16

发表评论

登录后才能评论

使用Python进行PDF解析-提取格式化和纯文本

发表评论

评论列表（0条）