（生物医学）单词词干的所有可能的单词形式完成

jenkins • 2022-12-16 • 随笔 • 阅读 29

此解决方案需要预处理您的语料库。但是一旦完成，这将是一个非常快速的字典查找。

from collections import defaultdictfrom stemming.porter2 import stemwith open('/usr/share/dict/words') as f:    words = f.read().splitlines()stems = defaultdict(list)for word in words:    word_stem = stem(word)    stems[word_stem].append(word)if __name__ == '__main__':    word = 'leukocyte'    word_stem = stem(word)    print(stems[word_stem])

对于

/usr/share/dict/words

语料库，这将产生结果

['leukocyte', "leukocyte's", 'leukocytes']

它使用

stemming

可以安装的模块

pip install stemming

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5674722.html

语料库单词词干预处理字典

打赏

微信扫一扫

支付宝扫一扫

jenkins 一级用户组

0 0

您可以使用字符串实例化类吗？

上一篇 2022-12-17

PyTorch，nn.Sequential（），访问nn.Sequential（）中特定模块的权重

下一篇 2022-12-17

发表评论

登录后才能评论

（生物医学）单词词干的所有可能的单词形式完成

发表评论

评论列表（0条）