PDF的文字定位识别

2021-02-21 20:32发布

怎么对PDF内的文字分段识别?例如:第一张图是一个PDF,里面包含标题、作者、正文,我要用什么方法去分别把标题、作者、正文读取出来并写入excel?写入excel的格式如图二。求大神指导指导!!!!求求了!!!!!

2条回答
weixin_48834481
1楼-- · 2021-02-21 21:02

借用pdfplumber库,挺好实现的。如果百度还解决不了问题,改天我再整理一篇博文

晋州
2楼-- · 2021-02-21 21:04

内容很多么,这种要看你的实际情况。

  • 数量不多直接手工录入就行。
  • 如果PDF格式良好,可以用一些工具把PDF导出成Word格式,然后就好处理了。
  • 如果数量很多,PDF又是不能直接转成word格式的。你可以尝试用一些PDF的OCR识别工具,先尝试把PDF转成文本格式,再处理。

如果是最后一种情况,这种没有什么万能的解决方案,你这是一个有技术含量,又有开发工作量的功能需求,需要花钱找人做开发。