Python使用jieba分词

Python使用jieba分词,第1张

概述# -*- coding: utf-8 -*-# Spyder (python 3.7) import pandas as pdimport jiebaimport jieba.analyse as anlsif __name__ == ‘__main__‘: data = pd.read_excel(r‘空气指数评论.xlsx‘) # content为
# -*- Coding: utf-8 -*-# Spyder (python 3.7)
import pandas as pdimport jIEbaimport jIEba.analyse as anlsif __name__ == __main__:      data = pd.read_excel(r空气指数评论.xlsx)    # content为excel的列名    opinion_content = data[content].dropna().values    all_word = ‘‘    for i in opinion_content: #形成整个字符串        all_word = all_word +,+ str(i)    all_word = all_word.strip()  #去掉字符串的空格    all_word_upper = all_word.upper() #大写  #加载词典 #jIEba.load_userdict(r"D:\Python_workspace\aaaa.txt")    #如果有不想被切分开的词,例如王者荣耀,和平精英等,可以进行参数设置:tune=True  # jIEba.analyse 是基于tf-IDf算法的关键词抽取    segment=[王者荣耀,和平精英]    for ii in segment:        jIEba.suggest_freq(ii,tune=True)        anls.set_stop_words("111.txt")  #加载停用词文档,网上可以下载或者自己创建    Tags = anls.extract_Tags(all_word_upper,topK=None,withWeight=True)    for x,w in Tags:        print(%s %s % (x,w))            for v,n in Tags:        #权重n是小数,乘了十万成为整数,可以按需求设置不同值        out_words= v + \t + str(int(n * 100000))        #注意‘a+‘为追加写入,因此如果重新运行程序,则需要先删除上次生成的文件,结果保存在当前目录下,可以更改目录        with open(.\cut_words_content.txt,a+,enCoding=utf-8)as f:            f.write(out_words+\n)

附加:另一种jIEba分词写法:

 sentence_seged = [seg for seg in jIEba.cut(all_word) if len(seg) >= char_len]# all_word为整个要分词的字符串,该方式没有利用到权重,是单纯的分词# 返回的是分词后的列表# 分词长度最少大于char_len

参考jIEba中文分词:https://github.com/fxsjy/jieba

##欢迎讨论

总结

以上是内存溢出为你收集整理的Python使用jieba分词全部内容,希望文章能够帮你解决Python使用jieba分词所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1190552.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存