看不到前面的代码,但从后面的代码来看,counts不是集合而是字典对象。
如果前面是这样初始化counts处理的,你可以看到counts是一个dict的类型
因为你并没有把排除词库应用进来。
如果使用jieba的关键词抽取,就可以配合自定义词典从外部加停用词表。这个参见官方文档analyse那部分。
我所作的改动有两点,主要是把排除词库的判断放到了循环里(词库砍了仅作为示例,对比一下就能看到,排除词库的词在右边console结果里已经没有了),次要是用with安全打开文件。
配图如下,进一步你还可以试试词性标注分词器,官方文档有教程我就不细说了。
python做中文分词处理主要有以下几种:结巴分词、NLTK、THULAC
1、fxsjy/jieba
结巴的标语是:做最好的 Python 中文分词组件,或许从现在来看它没做到最好,但是已经做到了使用的人最多。结巴分词网上的学习资料和使用案例比较多,上手相对比较轻松,速度也比较快。
结巴的优点:
支持三种分词模式
支持繁体分词
支持自定义词典
MIT 授权协议
2、THULAC:一个高效的中文词法分析工具包
前两天我在做有关于共享单车的用户反馈分类,使用jieba分词一直太过零散,分类分不好。后来江兄给我了THULAC: 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包 。THULAC的接口文档很详细,简单易上手。
THULAC分词的优点:
能力强。利用规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达973%,词性标注的F1值可达到929%
速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度达到13MB/s,速度比jieba慢
Python 解决中文编码问题基本可以用以下逻辑:
utf8(输入) ——> unicode(处理) ——> (输出)utf8
Python 里面处理的字符都是都是unicode 编码,因此解决编码问题的方法是把输入的文本(无论是什么编码)解码为(decode)unicode编码,然后输出时再编码(encode)成所需编码。
由于处理的一般为txt 文档,所以最简单的方法,是把txt 文档另存为utf-8 编码,然后使用Python 处理的时候解码为unicode(sometextsdecode('utf8')),输出结果回txt 的时候再编码成utf8(直接用str() 函数就可以了)。
以上就是关于python jieba 统计词数问题全部的内容,包括:python jieba 统计词数问题、Python的excludes 不起作用、thulac 分词 用的什么词典等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)