怎么是用python 语言 使用结巴分词 呢

怎么是用python 语言 使用结巴分词 呢,第1张

Python代码

#encoding=utf-8  

import jieba  

  

seg_list = jiebacut("我来到北京清华大学",cut_all=True)  

print "Full Mode:", "/ "join(seg_list) #全模式  

  

seg_list = jiebacut("我来到北京清华大学",cut_all=False)  

print "Default Mode:", "/ "join(seg_list) #默认模式  

  

seg_list = jiebacut("他来到了网易杭研大厦")  

print ", "join(seg_list)

输出: 

Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/ 学  

  

Default Mode: 我/ 来到/ 北京/ 清华大学  

  

他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

最复杂的就是这一行了:

(word for word in jiebacut(line,HMM=True)if word not in stop and len(wordstrip())>1)

jiebacut(line)将一行字符串,分割成一个个单词

word for word in jiebacut(line,HMM=True)是一个Python的表理解,相当于for循环遍历分割好的一个个单词

if word not in stop and len(wordstrip())>1这仍然是表理解的一部分,如果满足条件,就把单词加入到一个新的列表中,如果不满足就丢弃,

word not in stop单词不在停用词当中

len(wordstrip())>1单词去掉首尾的空格、标点符号后的长度大于1

以上就是关于怎么是用python 语言 使用结巴分词 呢全部的内容,包括:怎么是用python 语言 使用结巴分词 呢、python结巴分词后字典排列元素(key/value对)代码详解、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10144019.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存