/jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过 图结构 和 动态规划 方法找到最大的概率的词组.除了分词,jieba还提供了自定义中文单词的功能.(并不知道划线的两种方法是什么......)
/jieba库支持3种分词模式:
精确模式:将句子最精确的切开,适合文本分析.
全模式:把句子中所有可以成词的词语都扫描出来,速度快,但不能消除歧义.
搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词.
/jieba库常用的分词函数:
1. jieba.cut(s) :精确模式,返回一个可迭代的数据类型.
2. jieba.cut(s,cut_all=True) :全模式,输出文本s中所有可能的单词.
3. jieba.cut_for_search(s) :搜索引擎模式,适合搜索引擎建立索引的分词结果.
4. jieba.lcut(s) :精确模式,返回一个列表类型(建议使用).
5. jieba.lcut(s,cut_all=True) :全模式,返回一个列表类型(建议使用).
6. jieba.lcut_for_search(s) :搜索引擎模式,返回一个列表类型(建议使用).
7. jierba.add_word(w) :向分词词典中增加新词w.
用来分词的,jieba 可以:
把一句话拆分成多个词。
从一句话(一段话)中提取最重要的几个关键词。
最常用的功能应该就是这些吧,分词之后结合 TF-IDF,就可以开始做搜索工具和相关推荐了。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)