使用NLTK从OCR中识别未分裂的单词

使用NLTK从OCR中识别未分裂的单词,第1张

概述我正在使用NLTK处理从PDF文件中提取的一些文本.我可以完整地恢复文本,但是有很多实例没有捕获单词之间的空格,所以我得到像ifI而不是if,或者那个位置而不是那个位置的单词,或者他而不是和他的单词.我的问题是:如何使用NLTK查找它无法识别/未学习的单词,并查看是否存在更可能发生的“附近”单词组合?有没有更优雅的方式来实现这种检查,而不是简单地通过无法识别

我正在使用NLTK处理从pdf文件中提取的一些文本.我可以完整地恢复文本,但是有很多实例没有捕获单词之间的空格,所以我得到像ifI而不是if,或者那个位置而不是那个位置的单词,或者他而不是和他的单词.

我的问题是:如何使用NLTK查找它无法识别/未学习的单词,并查看是否存在更可能发生的“附近”单词组合?有没有更优雅的方式来实现这种检查,而不是简单地通过无法识别的单词,一次一个字符,拆分它,并查看它是否产生两个可识别的单词?

最佳答案我建议您考虑使用pyenchant,因为它是针对此类问题的更强大的解决方案.您可以下载pyenchant here.以下是安装后如何获得结果的示例:

>>> text = "IfI am inthat position,IDon't think I will."  # note the lack of spaces>>> from enchant.checker import SpellChecker>>> checker = SpellChecker("en_US")>>> checker.set_text(text)>>> for error in checker:    for suggestion in error.suggest():        if error.word.replace(' ','') == suggestion.replace(' ',''):  # make sure the suggestion has exact same characters as error in the same order as error and without consIDering spaces            error.replace(suggestion)            break>>> checker.get_text()"If I am in that position,I don't think I will."  # text is Now fixed
总结

以上是内存溢出为你收集整理的使用NLTK从OCR中识别未分裂的单词全部内容,希望文章能够帮你解决使用NLTK从OCR中识别未分裂的单词所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1207891.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存