这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。
这个有多种解决办法,在此给你提供思路,只要百度一下你就会解决了法一:
在代码中构造set集合,将所有的停用词就加到set集合中,建议采用TreeSet,然后对于文本的分词结果,去查询set集合,如果出现,说明是停用词,过滤掉即可。
法二:
使用第三方的jar包解决,比如IKanalyzer来加载扩展词典和停用词典,然后使用IKanalyzer来进行分词,之后过滤即可。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)