使用itextpdf提取的英文文本无法理解

amount • 2022-11-15 • 随笔 • 阅读 11

如果要根据文本在页面上的位置对文本进行排序，则需要引入一种特定的策略，例如

LocationTextExtractionStrategy

：

for (int i = 1; i <= reader.getNumberOfPages(); i++) {    String str=PdfTextExtractor.getTextFromPage(reader, i, new LocationTextExtractionStrategy());}

该

LocationTextExtractionStrategy

有时会导致奇怪的句子，更具体，如英文字母的页面（字形不同的对同一行文本基线）上的“舞蹈”。在这种情况下，您可以尝试按

SimpleTextExtractionStrategy

，以按其在PDF语法内容流中出现的顺序返回文本。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5033617.html

文本页面基线英文字形

打赏

微信扫一扫

支付宝扫一扫

amount 一级用户组

0 0

Java mailto到MIME

上一篇 2022-11-15

调用Scanner.close（）会引发nosuchelement异常

下一篇 2022-11-15

发表评论

登录后才能评论

使用itextpdf提取的英文文本无法理解

发表评论

评论列表（0条）