nodejs使用Jieba分词

nodejs使用Jieba分词,第1张

应该是由于更新后的原因,网上别人的教程出现了问题,自己摸索了一下,现在把所得拿出来分享

npm install node-jieba

文档

说说我安装时遇到的问题,刚开始一直报错,后来还是不行,又把centos63的python266升到了文档中的273,把pip也升级到对应版本(131),后来就安装好了

安装好之后进到项目目录的node_modules下的node-jieba目录运行installsh,语句如下:

cd /node_modules/node-jieba

sudo bash /installsh

具体使用方法文档说的很清楚了,还有要注意的点是当运行到

var analyzer = Jieba({
  debug: true

});

时,就会启动这个插件的python程序,使用完后可以用

analyzerclose()

关闭python程序,但是启动需要时间,尤其是在性能低的机子上(我的是阿里云最低配置的服务器,99一个月的那种),如果每次要用打开用完关闭的话,大概会有1秒左右的延迟,使用体验就有影响;但是一直开着又怕影响服务器性能。所以就自己试试看,选择合适自己的方式

tap

释义

n 龙头;塞子;窃听

n 轻拍;轻敲;鞋掌

v 轻拍;轻击;补鞋掌;选择

v 开发;利用;索要;装龙头;窃听

tap

音标

英[tæp]  美[tæp]

变形

过去式:tapped 过去分词:tapped 现在分词:tapping 第三人称单数:taps

用法

1、n(名词)

tap用作名词作“塞子,龙头”解,指塞住容器口使内外隔绝的东西,尤指用于控制液体从管子或容器流出来的开关。tap也可作“电话窃听”解。可用作可数可词,也可用作不可数名词。

tap还可作“轻叩,轻敲”解,可用作可数名词,也可用作不可数名词。

2、v(动词)

tap用作动词可作“拍打”解,指轻微地、反复地拍打。常常用以引起别人对自己的存在、需要或愿望的注意。tap也可作“窃听”“开发利用”“给放水”“给提供消息”解。

tap多作及物动词,接名词或代词作宾语。可用于被动结构。

当tap指龙头时,是典型的英国英语用法,在美国不普遍,美国龙头为fauceto。

taps是美国英语“熄灯号”的意思,是单数名词。

例句

1、After taps is blown, the young campers have to turn out their lights and go to sleep

当熄灯号响起,这些小露营者们就要熄灯入睡。

2、You left the tap running, and the bathwater is running over!

你忘了关水龙头,洗澡水都流出来了!

3、She heard a few taps on the window

她听见有人轻轻地敲了几下窗户。

4、We suspected the telephone line was tapped

我们怀疑电话遭人窃听了。

5、He forgot to turn the tap off

他忘了关水龙头。

1 ES和solr都是作为全文搜索引擎出现的。都是基于Lucene的搜索服务器。
2 ES不是可靠的存储系统,不是数据库,它有丢数据的风险。
3 ES不是实时系统,数据写入成功只是trans log成功(类似于MySQL的bin log),写入成功后立刻查询查不到是正常的。因为数据此刻可能还在内存里而不是进入存储引擎里。同理,删除一条数据后也不是马上消失。写入何时可查询?ES内部有一个后台线程,定时将内存中的一批数据写入到存储引擎,此后数据可见。默认后台线程一秒运行一次。该线程运行的越频繁,写入性能越低。运行的频率越低,写入的性能越高(不会无限高)。
4 目前已知的单ES集群可以存储PB级别的数据,不过这个就非常费劲了。TB级别数据没压力。
5 如果使用ES官方提供的jar包访问,需要JDK17及以上。
6 使用对应的版本访问ES server。如果ES server端的版本是17,那么请使用ES 17的client。如果ES server是21,请使用21的client。
7 ES索引存在Linux服务器的文件系统之上(背后是文件系统,不是类似于HDFS的分布式文件系统)
8 ES Java client是线程安全的,全局构建一个即可满足读写需求,不要每次都创建ES client。每次访问ES都构建新的es client即会抛出次异常。
9 非常不建议使用ES的动态识别和创建的机制,因为很多情况下这并非你所需要。推荐的做法是在写数据之前仔细的创建mapping。
10 强烈不建议在ES中使用深分页。可能会导致集群不可用。
11 ES是静态分片,一旦分片数在创建索引时确定那么后继不能修改。
12 ES里提供了type,很多人以为type是物理表,一个type的数据是独立存储的;但是在ES内部并不是这样,type在ES内部仅仅是一个字段。所以在很多数据能分为独立index的情况下,不要放到一个index里用type去分。只有嵌套类和父子类的情况下使用type才是合理的。
13 ES并不提供原生的中文分词的能力。有第三方的中文分词的插件,比如ik等。Ik是个toy分词器,有严肃的分词需求的话,请在使用ES之前使用独立的分词器分好词后向ES写入。
14 ES中的index,首先会进行分片,每一个分片数据一般都会有自己的副本数据,ES分配分片的策略会保证同一个分片数据和自己的副本不会分配到同一个节点上。当集群中的某一节点宕机后,ES的master在ping该节点时通过一定的策略会发现该节点不存活;会开启ES的恢复过程
15 ES没有update的能力。所有的update都是标记删除老文档,然后重新insert一条新文档。

英[fl__]美[fl__]
v闪光;(使)闪耀;(向)用光发出(信号);(快速地)显示;飞速运动;突然想到;(使)闪现,映出,显示;(通过无线电、计算机等)快速发送(信息);突然显露(强烈情感。
n闪光;闪耀;(尤指信号灯)闪亮;(想法的)突现;(情感的)突发;(明亮的东西)闪现;闪光灯;徽章,肩章,臂章;彩条;Flash网站动画制作程序。
adj庞大的;昂贵的;穿着奢华的。
第三人称单数:flashes。
现在分词:flashing。
过去式:flashed。
过去分词:flashed。一站式出国留学攻略 >host一词在不同环境中有不同含义,参见下列标注:
1)在互联网协议中,host表示能够同其他机器互相访问的本地计算机。一台本地机有唯一标志代码,同网络掩码一起组成IP地址,如果通过点到点协议通过ISP访问互联网,那么在连接期间将会拥有唯一的IP地址,这段时间内,你的主机就是一个host。在这种情况下,host表示一个网络节点。host是根据TCP/IP
for Windows 的标准来工作的,它的作用是包含IP地址和Host name(主机名)的映射关系,是一个映射IP地址和Host
name(主机名)的规定,规定要求每段只能包括一个映射关系,IP地址要放在每段的最前面,空格后再写上映射的Host
name主机名 。对于这段的映射说明用“#”分割后用文字说明。
2)对于拥有网站的公司或个人,host指的是网站的网络服务器。host还可以指提供网络服务的公司,这时这种公司也称为hosting。
3)在IBM以及其他大型计算机环境中,host指大型计算机,也称大型服务器。这时,大型计算机作为一个智能工作站,连接到其上的计算机作为终端使用其提供的服务。(要注意区分这种情况和所谓的主机/客户机连接模式并不一样,服务器/客户机模式只是一种软件模式,同此处的host的意义是相互独立的)。
4)有时,host也指某种为其他软硬件提供服务的设备或者应用程序。
5)host还是c++的头文件。
host英 [həʊst] 美 [hoʊst]
n[计算机] 主机; 主人,东道主; 节目主持人; 酒店业主;
vt当主人; 主办宴会,主持节目; 款待,做东;
vi做主人,做东道主;
[例句]For example, an extension point can define a means for modifying a host
plug-in ’ s menu item
例如,扩展点可以定义修改主机插件的菜单项的方式。
复数:hosts 过去式:hosted 现在分词:hosting 过去分词:hosted 第三人称单数:hosts
-------------------------------如有疑问,可继续追问,如果满意,请采纳,谢谢。

国内外顶级的10个知识库管理系统(含开源、免费)

1PingCode

国内最推荐的一款企业级知识管理系统,简单易用,功能成熟,服务口碑好,2022年入选36氪发布的年度口碑企服产品榜单 TOP 36。

在软件开发团队的使用体验远超其他团队,但同样被非常多的市场、销售、项目经理等各种部门广泛用于团队知识库创建、项目文档的管理、文档的在线编辑协作、跨团队信息共享、集体讨论、帮助中心、产品介绍、开发文档、在线手册等制作。

PingCode 知识库工具主要功能包括但不限于:

多人实时在线协同编辑、信息实时保存同步、历史版本快速追溯;

文档支持共享、关注、评论、批注,可在消息/飞书等第三方账号收到提醒;

支持富文本编辑,支持插入、表格、思维导图、视频、Markdown、代码块、页面、附件等,支持模板创建、复用;

与研发项目管理、测试管理具体工作项深度关联,形成“需求-开发-测试-知识沉淀”管理闭环;

页面与工作项相互关联,页面支持插入工作项及工作状态,具体工作项可直接关联知识库或页面;

支持页面级的权限管控、以及水印、审计等安全能力;

之所以说 PingCode 在软件开发团队使用体验更佳是因为:PingCode 除了有知识管理子产品外,产品矩阵覆盖了研发全生命周期,具备目标管理、产品管理、项目管理(敏捷/kanban/瀑布)、测试管理、缺陷追踪、项目文档管理、效能度量等不同的子产品,客户可以按需购买。并且集成了github、gitlab、jinkens、企微、飞书等主流工具。

软件优点:

产品开箱即用,简单易上手,产品服务口碑好;

为25人以下团队免费提供基础版本;

国产化,支持信创、麒麟等;

支持私有部署、定制化以及Saas等购买方式;

国际信息安全体系认证和精细权限管控,安全有保障;

软件缺点:

不支持多语言;

无法满足百度百科这类知识库的搭建;

PingCode 官网

2Confluence

与 PingCode 一样是一个为软件开发团队打造的团队级知识库子产品。澳大利亚 Atlassiana 公司的产品,在国内算是比较知名的的企业知识管理与协同软件,可以用于构建企业wiki,具有成熟的功能,与 PingCode 知识库一样,能够直接关联研发管理的各环节。它强大的编辑和站点管理特征能够帮助团队成员之间共享信息、文档协作、集体讨论,信息推送。

工具优点:

文档的组织:在左侧目录栏,所见即所得地一次 *** 作完成目录结构与页面创建;

丰富的文档模板:专门针对技术团队的文档系统,所以具有各种丰富的模板;

关联研发过程:技术团队认为Confluence好用,确实是因为它针对技术团队特点,细致地解决了场景化问题;

非常丰富的插件:Confluence 集成了国外几乎所有主流的工具。

工具缺点:

随着人数的增加,管理变得复杂:在cofluenence中,每增加一个人,就必须手动添加,并配置数十个或数百个页面的许可;

免费版本的Confluence功能非常有限;

Confluence非常昂贵,例如100人的情况下,Confluence需要10万大洋/年,而国内的PingCodeWiki等同类工具只需要2-3万/年。

对国内用户不友好:Atlasian在2021年宣布停止国内本地版销售,逼用户上云,而国内使用云版又要**。

非技术团队使用高学习成本:Confluence可以用于营销和人力资源,但许多员工可能会被软件性质所需的技术知识所阻止;

国内不设公司,服务全部由代理商完成,而且价格不便宜(有的代理实施费用1万/天)。

官网: >

3MediaWiki

MediaWiki全球比较著名的开源wiki程序之一,最适合企业用来搭建百科、知识库查询等用途,企业内部使用可能会带来过高的成本。它运行于PHP+MySQL环境。MediaWiki从2002年2月25日被作为维基百科全书的系统软件,并有大量其他应用实例。仅从这点来看其功能的强大和成熟度毋庸置疑,所以也不过多介绍。

工具优点:

经受过重量级应用的考验,功能丰富却架设简单;

全世界最大的wiki项目维基百科是使用mediawiki的成功范例,数据量、访问量都超级庞大;

mediawiki的功能非常丰富,支持多语言版本,充分满足知识站点的需要;

运行环境要求很低,架设过程简洁,即使新手也可以迅速建立自己的站点

最大的wiki程序社区;

mediawiki是应用最广的wiki程序,数以万计的网站在使用它,很容易找到范例站点;

有大量的热心参与人员参与研究,资料多,容易找到互相交流的朋友;

持续开发,程序特性功能不断完善,保证未来的支持。

工具缺点:

强大的功能带来了非常高的学习成本;

除此以外,作为国外工具永远存在的风险都是禁用,俄罗斯就是很好的例子;

后台管理功能不是十分简单友善,仅通过简单的特殊页面完成这些功能,大部分系统设置是依靠配置文件而非直接界面设置;

一般环境下,虽然内置部分缓冲机制优化运行,mediawiki的运行速度相对其他wiki程序要差很多。mediawiki的目标是为维基媒体项目服务,很多华丽的性能特征要在高端设备环境(多服务器,多数据库,反向缓冲squid服务器阵列,大量额外的PHP缓冲引擎)中才能体现;

官网: >

4Gitbook

非常适合程序员用来做个人知识库的产品:GitBook是一个基于 Nodejs 的命令行工具,可使用  Github/Git 和  Markdown 来制作精美的电子书。美观、好用非常适合用来搭建官网上的知识库、帮助中心,他们自身的官网就是基于此搭建的(如图)。除此以外,也非常适合程序员用来做个人知识库,更好的一点是,gitbook支持直接发布在github博客系统上, 你可以把你的作品放在github上,别人可以来fork可以来帮你纠错,给你发pull request。除此以外GitBook 的第三方插件很丰富。

软件缺点:

虽然能制作出优美的官网文档,但在官网的SEO优化方面存在一定的问题;

近几年官方这样疏于维护的情况下,在2021年的今天,你要做好遇到很多坑的心理准备

官网: >

5语雀

更适合做个人笔记工具的知识库:语雀,是蚂蚁集团旗下的在线文档编辑与协同工具,2015年内部孵化的项目,2022年发布移动端。使用了“结构化知识库管理”,形式上类似书籍的目录。与其他产品可以随意建立文档不同,语雀上的每一篇文档必须属于某一个知识库,语雀希望通过这样的产品设计,来从源头上帮助用户建立起知识管理的意识,培养良好的知识管理习惯。除此以外,它能够满足“卡片笔记”这种方法论下的笔记记录方式。同时也具备一定的团队协作能力。

软件优点:

可以全局搜索:腾讯文档无法全局搜索,就无法找到一些文档。

语雀的插入功能丰富:特别是表格很好用,而印象笔记的表格真的不太好用。思维导图虽然不是很完美,但已经比很多文档笔记产品的思维导图都好用很多了,感受最深的就是可以拖动画布。

语雀的画板很好用:功能丰富,满足很多要求,这是其他笔记文档工具都不具备的

语雀的电脑端可以直接 *** 作文档:很多人说飞书好,但是我作为一个办公喜欢电脑端软件的的人来说,使用飞书电脑端 *** 作 *** 作,要跳转到浏览器,这样真的很不舒服。

软件缺点:

感觉语雀在用户体验上有一些反常识的设计, *** 作繁复,十分的不便利,比如:知乎文章《语雀的缺点和优点》中吐槽的;

更适合个人,团队协作能力较弱;

无法保持登录,经常需要重复登录;

官网: >

6wikijs

它是一款轻量级、功能强大的 wiki 开源项目,拥有评论、Markdown 编辑器、上传、标签、全局搜索、协同编辑、编辑历史、用户管理、谷歌分析等功能,重点是支持中文,而且支持高度自定义。用到的技术栈也不同于老旧的 wiki 系统,它采用了 Nodejs、PostgreSQL、Vuejs、Docker 等技术。

工具缺点:

访问加载速度较慢,可能是国外产品的关系;

虽然 wikijs 更新积极、提交频繁,但目前它还不支持自定义主题;

对中文搜索不友好,默认不支持中文搜索,需要采用 ES 但这样就不再轻量,或者采用 pg 插件让 pg 支持中文分词;

中文翻译覆盖率并不像官网展示的 100%,管理后台里还是有未翻译的地方;

项目地址: >

7DokuWiki

开源免费,轻量级百科系统不需要数据库即可运行,不少人搭建的wiki就是选用的这个,总的来说需要的功能都有,模板和插件很多,最大的问题是中文资料比较少,官网下载速度也有点慢。对了,下载的时候最好把“更新”插件一起下载这样后续更新就方便很多。

官网: >

开源下载地址: >

8Notion

Notion 是前些年在国内外都非常流行的管理工具,同时适用于个人以及团队协作使用(最近国内有个类似产品Flowus也比较火)。

由于其独特和灵活的使用方式,它很适合作为知识管理软件。和传统的笔记软件不同,Notion采用了模块化的设计,每个段落都是一个独立的区块,可以自由拖拽和布局,而且区块还可以设置为各种类型,包括标题、待办、列表、引用、、视频等,甚至还提供了第三方嵌入功能,你可以在其中加入网页片段、代码、思维导图、流程图等模块,创建内容丰富的文档。你可以认为它是一个工具集合,能够同时满足任务管理、进度管理、文档协作、知识库、项目计划等等。

软件缺点:

网络问题,受中国各地区复杂的网络情况影响,某些地区访问Notion及其缓慢,当内容中包含大量时,体验将变得很糟糕,只能自己寻找合适的手段解决;

丰富的功能必然的带来了较高的上手门槛,如果你只是想找一个单纯的知识库,那它可能并不适合;

离线模式不支持,Notion目前所有的内容基于在线web访问的方式,当浏览器缓存内容被清除后,意味着你每次访问页面都将需要进行新的载入,当你某个页面包含大量的数据时,等候时间将会很长,长达5-15秒(受网络速度影响),不过官方承诺将在后续版本支持离线模式。

中文搜索和分词及其糟糕,这个问题在2020年2月更新已得到解决,新的搜索机制对中文的兼容已非常良好,并且支持过滤。

没有标签体系,无法达到Onenote的标签快速查找的功能,Onenote可以为某一行文本设置某类标记,然后通过查找标记进行快速查找,在Notion不支持标记,只能通过自己的手动编辑某类特殊的文本,然后通过搜索功能勉强实现标记功能;

9docsify

免费开源,轻量级文档网站,界面简洁优雅,目前很多开源项目的文档都选用这个系统搭建,这里需要注意的是这个是单文档,不是那种大型wiki系统。

官网: >

10坚果云

坚果云一款提供云存储服务的工具,不同于树状结构的文档管理结构,它所提供的是文件夹类型的知识库管理方式。其优点就在于除了文档内容还能够对几乎所有类型的知识成果进行管理沉淀,比如特别适合视频、音频等知识管理。

坚果云分为面向个人和企业两种,可以帮助人们随时随地用任何设备快速访问文件,功能包括文件自动同步、文件共享、文件搜索、照片视频自动备份等,可应用于汽车、能源、金融、建筑等行业。

官网: >

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/12610367.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-26
下一篇 2023-05-26

发表评论

登录后才能评论

评论列表(0条)

保存