为什么导入停用词表没用

为什么导入停用词表没用,第1张

可能是该软件不能用。

这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。

这个有多种解决办法,在此给你提供思路,只要百度一下你就会解决了

法一:

在代码中构造set集合,将所有的停用词就加到set集合中,建议采用TreeSet,然后对于文本的分词结果,去查询set集合,如果出现,说明是停用词,过滤掉即可。

法二:

使用第三方的jar包解决,比如IKanalyzer来加载扩展词典和停用词典,然后使用IKanalyzer来进行分词,之后过滤即可。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/7997038.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-12
下一篇 2023-04-12

发表评论

登录后才能评论

评论列表(0条)

保存