python – 将gensim相似度计算限制为语料库的子集

python – 将gensim相似度计算限制为语料库的子集,第1张

概述我想在 Python上使用gensim计算文档之间的相似性. 我想要一种能够将计算限制为仅仅是语料库子集的方法.具体来说,我的文档有一个相关的年份,我想要一种只计算搜索文档和其他文档之间相似性的方法,这些文档对该变量具有相同的值. 我看不到任何关于例如关于如何将附加变量与每个文档相关联的http://radimrehurek.com/gensim/simserver.html,以及如何将相似性限 我想在 Python上使用gensim计算文档之间的相似性.

我想要一种能够将计算限制为仅仅是语料库的子集的方法.具体来说,我的文档有一个相关的年份,我想要一种只计算搜索文档和其他文档之间相似性的方法,这些文档对该变量具有相同的值.

我看不到任何关于例如关于如何将附加变量与每个文档相关联的http://radimrehurek.com/gensim/simserver.html,以及如何将相似性限制为仅仅那些文档 – 实际上我想要做的可能是不可行的.因此,我的问题是,这是可能的,或者是使用多个语料库实现此目的的唯一方法.

解决方法 你可以通过忽略不适合你的目标年份的结果来解决它.

>为您的文档创建document2year_dict(文档,年份).>按距离顺序获取文档列表target_document.>遍历列表并丢弃文档if document2year_dict [current_document]!= target_year

总结

以上是内存溢出为你收集整理的python – 将gensim相似度计算限制为语料库的子集全部内容,希望文章能够帮你解决python – 将gensim相似度计算限制为语料库的子集所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1196065.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存