求助ICTCLAS初始化失败,原因是NLPIR.user无效或过期

求助ICTCLAS初始化失败,原因是NLPIR.user无效或过期,第1张

在命令行下运行埃我记得是UTF-8编码就可以分词,如果不成就换成GB18030编码,比GBK要好用。 你不能在你的编辑器里运行python, 以后改变这种windows开发习惯, 用print代替调试。 不要在编辑器里运行, 要在命令行里运行。 你应该没下载360安全

语料库分为中文和英文的。英文的好搜,上知网,找几篇论文,大部分软件都会说,中文的话搜索自然语言处理,里面模块就有中文分词相关的,搜nlpir,这个中文分词的效果最好(现在不确定,毕竟分词软件也不少)

以前ictclas014似乎只能在windows下被python调用。我就成功过。 不过到了linux下比较麻烦。java调用是可以的。但是python似乎有些麻烦。不过当时谷哥的code项目里有一个开源版本。 现在不用这么麻烦了。

去年专业实训我做了一个简单的搜索引擎,所以可以简单说下框架。
搜索引擎分为三大块:下载,索引,搜索。
下载:
这部分是需要把你想要搜索的范围的原始数据。如果搜索的范畴是网页上的内容,那么它就是一个网络爬虫。我当时做的是一个校内网的搜索引擎,所以就写了一个爬虫从校园网主页开始下载,分析网页内的链接把符合要求的链接加入待下载队列,这样一直把所有校园网的网页全部都下载下来。
索引
搜索引擎之所以可以搜的那么快,都是索引的功劳。索引是一种专门针对搜索优化的结构,详情可以百度 倒排索引 。
前面搜索下载的是网页全文,里面的html标签是不需要被搜索的,所以要把数据清洗一下,提取出其中的重要内容。
文本内容的预处理还需要分词 、去除无意义的停用词等。分词是什么呢…你还是百度吧
建立索引有现成的库:LUCENE ,它自带有几个默认分词器,如果想要你的搜索引擎搜索的结果更好,你可以使用的中文分词器(这个当然也有现成的工具啦,ik分词,NLPIR这些都是现有的解决方案,效果也还不错)如果之前没有接触过它,那就需要学习一下。
索引建立好了,接下来就是搜索了。搜索是将根据查询词,搜索索引内匹配的内容,然后展示出来。符合查询词的结果多了的时候怎么办呢,这就涉及到排序的问题,这就有点复杂啦,这就涉及到很多排序算法比如tfidf之类的东西,不过这些lucene的api也帮你做了,它的内部有一个打分机制,将打分高放在搜索结果的前面。
以上三个点,每一个地方如果要展开,都可以写一部小书了,根据题主情况选择了解学习。
说了以上,如果你只是想实现一个小文本量的检索功能,select from xxx like 就可以满足你的需求。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/13409168.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-30
下一篇 2023-07-30

发表评论

登录后才能评论

评论列表(0条)

保存