使用itextpdf提取的英文文本无法理解

使用itextpdf提取的英文文本无法理解,第1张

使用itextpdf提取的英文文本无法理解

如果要根据文本在页面上的位置对文本进行排序,则需要引入一种特定的策略,例如

LocationTextExtractionStrategy

for (int i = 1; i <= reader.getNumberOfPages(); i++) {    String str=PdfTextExtractor.getTextFromPage(reader, i, new LocationTextExtractionStrategy());}

LocationTextExtractionStrategy
有时会导致奇怪的句子,更具体,如英文字母的页面(字形不同的对同一行文本基线)上的“舞蹈”。在这种情况下,您可以尝试按
SimpleTextExtractionStrategy
,以按其在PDF语法内容流中出现的顺序返回文本。



欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5033617.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-15
下一篇 2022-11-15

发表评论

登录后才能评论

评论列表(0条)

保存