python3怎么使用结巴分词_系统运维

下面这个程序是对一个文本文件里的内容进行分词的程序：test.py

[python] view plain copy

#!/usr/bin/python

#-*- encoding:utf-8 -*-

import jieba #导入jieba模块

def splitSentence(inputFile, outputFile):

fin = open(inputFile, 'r') #以读的方式打开文件

fout = open(outputFile, 'w') #以写得方式打开文件

for eachLine in fin:

line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格，并转为Unicode进行处理

wordList = list(jieba.cut(line)) #用结巴分词，对每行内容进行分词

outStr = ''

for word in wordList:

outStr += word

outStr += '/ '

fout.write(outStr.strip().encode('utf-8') + '\n') #将分词好的结果写入到输出文件

fin.close()

fout.close()

splitSentence('myInput.txt', 'myOutput.txt')

写完程序之后，在Linux重点输入：python test.py即可运行程序进行分词。

输入的文件内容如下所示：

经过结巴分词后，输出结果如下所示：

注意：第11行的 jieba.cut()返回的结构是一个可迭代的generator，可以用list(jieba.cut(...))转化为list

python中文分词：结巴分词

中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：

基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法

安装（Linux环境）

下载工具包，解压后进入目录下，运行：python setup.py install

模式

默认模式，试图将句子最精确地切开，适合文本分析

全模式，把句子中所有的可以成词的词语都扫描出来，适合搜索引擎

接口

组件只提供jieba.cut 方法用于分词

cut方法接受两个输入参数：

第一个参数为需要分词的字符串

cut_all参数用来控制分词模式

待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

jieba.cut返回的结构是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list

实例

#! -*- coding:utf-8 -*-

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all = True)

print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")

print "Default Mode:", ' '.join(seg_list)

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7210031.html

python3怎么使用结巴分词

发表评论

评论列表（0条）