NLPIR_ImportUserDict导入用户字典成功，但为什么分词不按用户字典分呢_IT百科

因为如果导入的词是核心词库，导致用户词典无效。所以分词不按用户字典分。

NLPIR_ImportUserDict即是“NLPIR汉语分词系统。”

NLPIR_ImportUserDict：

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；张华平博士先后倾力打造十余年，内核升级10次。

1、快速从NLPIR-ICTCLAS2014的下载包中获得我们需要的东西

首先来看一下整个文件夹的结构

Data文件夹中，含有分词需要用到的字典，Configure.xml里面有相关的描述信息；doc里面是使用帮助(介绍了基本需要使用到的函数接口)；include、lib自然是我们主要用到的；sample是示例代码；test里面有一个exe示例；授权自然是License，应该是通过某种形式来限制我们的使用的，目前暂时还不清楚，如果到时候被限制，还需要进行调试。

2、从下载包中抽出我们需要的，并新建一个例子

从上面来看，我们需要用到的主要有三个文件夹Data、include、lib(我是打算做的32位程序，所以只需要用里面的

lib\win32下的dll和lib)

这时，工程目录就变成这样的(当然NLPIR.dll需要和exe放在一块)：

第一个例子，比较简单，就简单使用几个常用的函数：

[cpp] view plaincopyprint?

// test_nlpir.cpp : 定义控制台应用程序的入口点。

#include "stdafx.h"

#include "iostream"

#include "string"

using namespace std

#include "NLPIR.h"

#pragma comment(lib, "NLPIR.lib")

int _tmain(int argc, _TCHAR* argv[])

{

if(!NLPIR_Init())

{

printf("Init fails\n")

return -1

}

const char *participle_result

const char *sentence = "[整租出租]宣武门西大街4号楼二居整租[整套出租]媒体村天居园大两居[整套出租]媒体村天居园大两居"

cout <<"===============NLPIR_ParagraphProcess==================" <<endl

participle_result = NLPIR_ParagraphProcess(sentence,1)

cout <<participle_result <<endl

cout <<"=================================" <<endl

cout <<"==============NLPIR_GetFileNewWords===================" <<endl

const char * get_file_new_words = NLPIR_GetFileNewWords("test.txt")

cout <<get_file_new_words <<endl

cout <<"=================================" <<endl

cout <<"===============NLPIR_GetKeyWords==================" <<endl

const char * get_key_words = NLPIR_GetKeyWords(sentence)

cout << get_key_words <<endl

cout <<"=================================" <<endl

cout <<"===============NLPIR_GetFileKeyWords==================" <<endl

const char * get_file_key_words = NLPIR_GetFileKeyWords("test.txt")

cout <<get_file_key_words <<endl

cout <<"=================================" <<endl

cout <<"===============NLPIR_GetNewWords==================" <<endl

const char * get_new_words = NLPIR_GetNewWords(sentence)

cout <<get_new_words <<endl

cout <<"=================================" <<endl

NLPIR_Exit()

return 0

}

函数可以按照字面上的意思来理解

这是输出的结果：

但明显是看到，上面的分词有些小问题，如果我们在给聚类算法喂数据的时候，这样的分词，会出现一定的问题

3、解决上面的问题

我们有两种方法来处理这个问题

a、这也许是最简单、也最方便的方法

当然，他除了一些繁琐之外(如果你有了一些需要的数据词条、词典就我所谓了)，我们可以新建一个词典文件(比如我这个测试用例中使用user_dic.txt，他里面包含我们需要具体分开的词组)：

那么来看下面是如何具体使用字典的：

[cpp] view plaincopyprint?

// test_nlpir.cpp : 定义控制台应用程序的入口点。

#include "stdafx.h"

#include "iostream"

#include "string"

using namespace std

#include "NLPIR.h"

#pragma comment(lib, "NLPIR.lib")

int _tmain(int argc, _TCHAR* argv[])

{

if(!NLPIR_Init())

{

printf("Init fails\n")

return -1

}

const char *participle_result

unsigned int add_dic_items = NLPIR_ImportUserDict("user_dic.txt")//Import user dictionary

printf("%d user-defined lexical entries added!\n", add_dic_items)

const char *sentence = "[整租出租]宣武门西大街4号楼二居整租[整套出租]媒体村天居园大两居[整套出租]媒体村天居园大两居"

cout <<"===============NLPIR_ParagraphProcess==================" <<endl

participle_result = NLPIR_ParagraphProcess(sentence,1)

cout <<participle_result <<endl

cout <<"=================================" <<endl

cout <<"==============NLPIR_GetFileNewWords===================" <<endl

const char * get_file_new_words = NLPIR_GetFileNewWords("test.txt")

cout <<get_file_new_words <<endl

cout <<"=================================" <<endl

cout <<"===============NLPIR_GetKeyWords==================" <<endl

const char * get_key_words = NLPIR_GetKeyWords(sentence)

cout << get_key_words <<endl

cout <<"=================================" <<endl

cout <<"===============NLPIR_GetFileKeyWords==================" <<endl

const char * get_file_key_words = NLPIR_GetFileKeyWords("test.txt")

cout <<get_file_key_words <<endl

cout <<"=================================" <<endl

cout <<"===============NLPIR_GetNewWords==================" <<endl

const char * get_new_words = NLPIR_GetNewWords(sentence)

cout <<get_new_words <<endl

cout <<"=================================" <<endl

NLPIR_Exit()

return 0

}

这是使用字典之后的分词结果：

可以看到，我们想要切分的词组都已经出来了，也不再有任何新词出现了

b、通过多个样本(也就是多条数据)来进行分词，这样我们需要用到的词的频率便会增长(有的词只出现1、2次并不会被识别出来)，这样在GetNewWords中，便能够得到一些我们想法的数据，得到这些数据之后，可以写到文本中，然后再写到用户字典中

这里只演示第一步，看看是如何通过增加多条数据来扩大GetNewWords的结果的。

其实很简单，只需要把第一个例子中的测试字符串修改成如下(同样的test.txt对应的字符串也跟着修改)：

[plain] view plaincopyprint?

const char *sentence = "[整租出租]宣武门西大街4号楼二居整租\

[整套出租]媒体村天居园大两居\

【房主出租】万柳中路康桥水郡一居室\

【个人出租】上地桥东清上园小区开间58平\

3个月转租【中关村保福寺桥南】两居中的主卧\

【整套长期出租】海淀安宁佳园安宁庄一居整租（房东直租）\

[单间出租]造甲街南里20号院二居大间\

[个人诚心出租]世纪金源附近，远大园四区11号楼三居次卧\

【房主1居直租】6号线地铁十里堡站炫特嘉园1居（限1人女）\

[单间出租]10号线西土城牡丹园北影黄亭子小区二居之一\

[整套出租]西二旗智学苑三居整套\

[房主整套出租]清河地铁8号线西小口站精装三居整套\

[单间出租]清华校内单间 \

[北京大学西南门海淀桥南大河庄苑精装修一居室整套出租出租]苏\

[求助]求租上地东里/西里/佳园/农大南路2号院干净舒适带电梯两\

[求助]转租西单/金融街/二龙路两居室\

[整套出租]财经大学附近皂君庙一居整套\

北沙滩科学院南里50米一居简装3400元转租，需要的站内索取转租\

招合租中关村知春里海淀黄庄地铁站人大附中对面正规三居\

【个人出租】回龙观地铁附近两居中的主卧和次卧，也可以整租\

个人出租\

[整套出租]朝阳区南沙滩小区一居整套\

（个人转租）新龙城二期14平米正规次卧 1000元\

个人出租：温泉镇尚峰尚水小区精装半地下二居\

【昌平沙河高教园一区小两居】【2450家电全齐全新】\

个人求租,石景山八角附近二居室\

个人出租保利西山林语90平二居室\

2014-7-30存量房网上签约\

明天决定先涨10%的房租，为房产税做准备，得未雨绸缪啊\

今晚新闻调查，心全凉了：转基因米实际已经扩散(12)\

全款求购万年花城两居室(19)\

问一个初级问题：校友卡大家都什么额度？我5k(15)\

再问一个小白问题(8)\

网友评怕老婆城市排行榜：成都第二上海居首(14)\

清华大学东八家嘉苑 61平米全南向正规一居看图 240万(1)\

110平米新房求靠谱装修团队、设计、报价\

五道口学区房满五年唯一两居急售260万\

父母随迁落户能否申请政策房\

房子南面离马路60米，西面紧挨着小学和中学，19层，会吵吗\

学区房在涨吗\

好几个中介打电话说房价要开始上涨了\

【整套出租】6号线黄渠站苹果派小区77平2居\

个人出租]海淀区五道口华联南暂安处朝北主卧合租无中介费近地\

【房屋整租】芍药居北里2居室房主首次出租\

[出租] 中关村北大西门单间\

[求助]求租上地当代城市家园或怡美家园两居或者三居一家人住\

[整套出租]五道口东升园一室一厅南北通透全明实木家具地板家电"

这些数据，也是通过web页面得到的

现在来看看结果

一些常见的词汇也能通过GetNewWords反应出来了

ICTCLAS分词系统是个NB的系统，这几天找到了仔细试了试，效率奇高，比自己搞字典，分词算法效率不知高了很多倍，用起来也是非常简单的，BOSS需要导出自定义词库，然后用文章训练词库，不管了，反正可以使用了。DT地用hash做了两个星期，进度很慢，分析一本《天龙八部》，统计出现的词语频率（词语只是仅仅基于频率，在并没有字典的情况下无法实现智能分词！）大概要花费十几分钟，可见效率底下，而且内存200M左右。使用ICTCLAS分词系统可以高效地实现分词。下面把过程贴出来。

使用方法，首先到网上下载ICTCLAS，因为我是windows下的C++实现，下载ICTCLAS2011_Windows_32_c，解压，里面有很好的Demo,Doc,copy API目录下的所有文件(夹)到你所在的工程，在你的源文件加上

#include "ICTCLAS50.h"

#pragma comment(lib, "ICTCLAS50.lib") //ICTCLAS50.lib库加入到工程中

//your code here，可参考Demo里面的代码

即可。

大概的函数C++函数接口都在Doc文件下的文档中：

bool ICTCLAS_Init(const char* pszInitDir=NULL)初始化函数

返回值

如果初始化成功返回true, 否则返回false. 如初始化不成功,请查看ictclas.log文件了解详细错误原因.

参数

pszInitDir：初始化路径，应包含配置文件（Configure.xml）和词典目录(Data目录)以及授权文件(user.lic). 如果这些文件及目录在系统运行当前目录下，此参数可以为null。

bool ICTCLAS_Exit( )退出，释放内存

返回值

成功返回true；否则返回false。

unsigned int ICTCLAS_ImportUserDict(const char *sFilename,eCodeType eCT)

//导入用户自定义词典

返回值

导入成功的词的个数

参数

sFilename: 用户定义词典文件

eCT：编码格式

int ICTCLAS_ParagraphProcess(const char *sParagraph,int nPaLen,eCodeType eCt,int bPOStagged,char* sResult)//对一段文字进行分词

返回值

返回结果缓冲区的指针（sResult）以及结果的长度R

参数

sParagraph: 原始文字段

nPaLen: 文字段的长度

eCodeType: 文字段的编码格式

bPOStagged: 需不需要根据标注集做标记 0 = 做标记 1 = 不标记默认为1.

sResult: 输出结果

t_pstRstVec ICTCLAS_ParagraphProcessA(const char *sParagraph,int PaLen,eCodeType eCodeType,int bPOStagged,int &nRstCnt)

//处理文字段

返回值

结果vector的指针，系统调用，用户无法分配以及释放

struct stResult{

int start//start position

int length//length

#ifdef POS_TAGGER

int iPOS//POS

char sPOS[POS_SIZE]//word type

#endif

int word_ID//word_ID

int word_type//Is the word of the user's dictionary?(0-no,1-yes)

int weight// word weight

}

参数

sParagraph: 原始文字段

nPaLen: 文字段长度

eCodeType: 编码格式

bPOStagged:

需不需要根据标注集做标记 0 = 做标记 1 = 不标记默认为1.

nRstcnt: 处理结果的长度值。

详细用法参见Doc文件。

bool ICTCLAS_FileProcess(const char *sSrcFilename,eCodeType eCt,const char *sDsnFilename,int bPOStagged)//处理txt文件

返回值

处理文本文件成功返回true, 否则返回false

参数

sSourceFilename: 原始处理文件

eCodeType: 原始文件编码格式

sDsnFilename: 存储结果的文件名T

bPOStagged: 需不需要根据标注集做标记 0 = 做标记 1 = 不标记默认为1.

注意事项

调用此函数之前需要调用init函数成功，输出格式可以通过ICTCLAS 配置来更改，这个需要研究下配置文件。

int ICTCLAS_SetPOSmap(int nPOSmap)//设置标注集

返回值

成功为1，其他为0

参数

nPOSmap :

ICT_POS_MAP_FIRST 计算所一级标注集

ICT_POS_MAP_SECOND 计算所二级标注集 PKU_POS_MAP_SECOND 北大二级标注集 PKU_POS_MAP_FIRST 北大一级标注集

int ICTCLAS_GetWordId(const char *sWord,int nWrdLen,eCodeType eCT)

返回值

单词的ID（我觉得是词典里面的存储位置，不清楚词典的具体结构）

参数

sWord: 目标单词

nWrdLen: 单词长度

eCodeType: 编码格式

bool ICTCLAS_ResultFree ( t_pstRstVec pRetVec)

//释放调用ICTCLAS_ParagraphProcessAW得到的vector指针

返回值

成功为1，失败为0

参数

t_pstRstVec: ICTCLAS_ParagraphProcessAW得到的vector指针

总结：这些函数都很好用，我需要使用处理文件函数ICTCLAS_FileProcess我出现的问题是：单独调用这个函数没有问题，但是在MFC界面调用两个选择打开文件路径和保存结果文件路径的CFileDialog以后就会出现ICTCLAS_Init初始化失败！郁闷了半天，查看ICTCLAS.log文件，

Default Path : E:\test_ICTCLAS\test_ICTCLAS\test_ICTCLAS

start lic check.

License succeed!Cannot open user dictionary

E:\test_ICTCLAS\test_ICTCLAS\test_ICTCLAS\Data\UserDict.pdat.

Cannot open file E:\test_ICTCLAS\test_ICTCLAS\test_ICTCLAS\Data\UserDict.map.

Cannot open user dictionary E:\test_ICTCLAS\test_ICTCLAS\test_ICTCLAS\Data\UserDict.pos.

Load dictionary down!

并没有异常，加载失败是因为并没有自定义词典。

仔细排查，发现bool ICTCLAS_Init(const char* pszInitDir=NULL)有一个默认的工作路径，在没有打开CFileDialog的时候默认的路径是exe文件执行路径，但是打开以后若不进行设置，会改变工作路径！这就是为什么点击CFileDialog路径更改，找不到路径下的文件，当然无法初始化了！（ pszInitDir：初始化路径，应包含配置文件（Configure.xml）和词典目录(Data目录)以及授权文件(user.lic). 如果这些文件及目录在系统运行当前目录下，此参数可以为null）

解决方案：

方案1. 在每次调用CFileDialog打开文件后重新设置工作路径

方案2. 在程序中使用绝对路径

方案3. CFileDialog的构造函数有8个参数，平时为了省事一般只是指定第一个。其实解决这个问题，只要在第四个参数dwFlags中加上OFN_NOCHANGEDIR即可

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/bake/11375901.html

NLPIR_ImportUserDict导入用户字典成功，但为什么分词不按用户字典分呢

发表评论

评论列表（0条）