该spotsigs纸由提到 joyceschan
地址内容重复检测,它含有大量的深思。
如果您正在寻找关键术语的快速比较,
nltk标准功能可能就足够了。
随着
nltk您可以通过查找拉你的项的同义词 同义词集 所包含 共发现
>>> from nltk.corpus import wordnet>>> wordnet.synsets('donation')[Synset('contribution.n.02'), Synset('contribution.n.03')]>>> wordnet.synsets('donations')[Synset('contribution.n.02'), Synset('contribution.n.03')]
它可以理解复数,还可以告诉您同义词对应的词性
同义词集 存储在树中,叶中有更多特定术语,根部有更多通用术语。根术语称为 上位词
您可以通过术语与常用 上位词的* 接近程度来衡量相似性 *
根据NLTK食谱,请注意语音的不同部分,它们没有重叠的路径,因此您不应尝试衡量它们之间的相似性。
说,您有 捐赠 和 礼物 这两个术语,可以从中获得它们,
synsets但是在此示例中,我直接对其进行了初始化:
>>> d = wordnet.synset('donation.n.01')>>> g = wordnet.synset('gift.n.01')
食谱推荐Wu-Palmer相似方法
>>> d.wup_similarity(g)0.93333333333333335
这种方法为您提供一种快速的方法来确定所使用的术语是否与相关概念相对应。看看使用Python进行自然语言处理,看看还有什么可以帮助您进行文本分析的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)