怎么是用python 语言 使用结巴分词 呢

怎么是用python 语言 使用结巴分词 呢,第1张

Python代码

#encoding=utf-8  

import jieba  

  

seg_list = jieba.cut("我来到北京清华大学",cut_all=True)  

print "Full Mode:", "/ ".join(seg_list) #全模式  

  

seg_list = jieba.cut("我来到北京清华大学",cut_all=False)  

print "Default Mode:", "/ ".join(seg_list) #默认模式  

  

seg_list = jieba.cut("他来到了网易杭研大厦")  

print ", ".join(seg_list)

输出: 

Full Mode: 我/ 来/ 来到/ 到/ 北/ 北京/ 京/ 清/ 清华/ 清华大学/ 华/ 华大/ 大/ 大学/ 学  

  

Default Mode: 我/ 来到/ 北京/ 清华大学  

  

他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

# -*- coding: utf-8 -*-

import jieba

import jieba.posseg as pseg

import jieba.analyse

#jieba.load_userdict('userdict.txt')#jieba默认有一个dict.txt词库,但可以根据自己需要加入自己的词条

str1 = "训练一个可进行N维分类的网络的常用方法是使用多项式逻辑回归"

str2 = "可以尝试修改网络架构来准确的复制全连接模型"

str3 = "模型的目标函数是求交叉熵损失和所有权重衰减项的和,loss()函数的返回值就是这个值"

seg_list = jieba.cut(str1,cut_all =True) #全模式

print("/".join(seg_list))

result = pseg.cut(str1)

result2 = jieba.cut(str2) #精准模式

result3 = jieba.analyse.extract_tags(str3,4) #关键词提取

result4 = jieba.cut_for_search(str3) #搜索引擎模式

for w in result:

print(w.word,w.flag)

print(" ".join(result2))

print(" ".join(result3))

print(" ".join(result4))


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/bake/11726403.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-18
下一篇 2023-05-18

发表评论

登录后才能评论

评论列表(0条)

保存