Linux里面es和Solr区别是什么?

Linux里面es和Solr区别是什么?,第1张

1.查询性能不同。当实时建立闹迹索引的时候,solr会产生io阻塞,而es则不会,es查询性能要高于solr

2.检索效率不同。在不断动态添加数据的时候,solr的检索效率会变的低下,而es则没有什么变化

3.管理方式不腔滚同。Solr利用zookeeper进行分布式管理,而es自身带有分布式系统管液圆并理功能。Solr一般都要部署到web服务器上

4.文件格式不同。Solr支持更多的格式数据[xml,json,csv等],而es仅支持json文件格式

elasticsearch.yml 服务配置文件

参数:

配置es的集群名称,默认是elasticsearch,es会自动发现在同一网段下的es,如果在同一网段下有多个集群,就可以用这个属性来区分不同的集群。

设置默认索引分片个数,默认为5片。Since elasticsearch 5.x index level settings can NOT be set on the nodes configuration like the elasticsearch.yaml, in system properties or command line arguments.In order to upgrade all indices the settings must be updated via the /${index}/_settings API. Unless all settings are dynamic all indices must be closed

in order to apply the upgradeIndices created in the future should use index templates

to set default values.

Please ensure all required values are updated on all indices by executing:

curl -XPUT ' http://localhost:9200/_all/_settings?preserve_existing=true ' -d '{

"index.number_of_replicas" : "1",

"index.number_of_shards" : "7"

}'

设置默认索引副本个数,默认为1个副本。 5.X版本以上不支持在配置樱斗文件里面配置。

节点名,默认随机指定一个name列橡颂袭表中名字,该列表在es的jar包中config文件夹里name.txt文件中,其中有很多作者添加的有趣名字。

指定该节点是否有资格被选举成为node,默认是true,es是默认集群中的第一台机器为master,如果这台机挂了就会重新选举master。

指定该节点是否存储索引数据,默认为trues

禁止自动创建索引

这个设置使删除只限于特定名称指向的数据,而不允许通过指定_all 或通配符来删除指定索引库。

设置配置文件的存储路径,默认是es根目录下的config文件夹。

设置索引数据的存储路径,默认是es根目录下的data文件夹,可以设置多个存储路径,用逗号隔开,例:

path.data:/path/to/data1,/path/to/data2

设置临时文件的存储路径,默认是es根目录下的work文件夹。

设置日志文件的存储路径,默认是es根目录下的logs文件夹

设置插件的存放路径,默认是es根目录下的plugins文件夹

设置为true来锁住内存。因为当jvm开始swapping时es的效率会降低,所以要保证它不swap,可以把ES_MIN_MEM和ES_MAX_MEM两个环境变量设置成同一个值,并且保证机器有足够的内存分配给es。同时也要允许elasticsearch的进程可以锁住内存,Linux下可以通过 ulimit-l unlimited 命令。

设置绑定的ip地址,可以是ipv4或ipv6的,默认为0.0.0.0。

设置梁兄其它节点和该节点交互的ip地址,如果不设置它会自动判断,值必须是个真实的ip地址。

这个参数是用来同时设置bind_host和publish_host上面两个参数。

设置节点间交互的tcp端口,默认是9300。

设置是否压缩tcp传输时的数据,默认为false,不压缩。

设置对外服务的http端口,默认为9200。

设置内容的最大容量,默认100mb

是否使用http协议对外提供服务,默认为true,开启。

gateway的类型,默认为local即为本地文件系统,可以设置为本地文件系统,分布式文件系统,Hadoop的HDFS,和amazon的s3服务器,其它文件系统的设置方法下次再详细说。

设置这个集群中节点的数量,默认为2,一旦这N个节点启动,就会立即进行数据恢复。

预期在群集中的主节点数。一旦预期的主节点数加入集群,就会开始恢复本地分片。默认为0

预期在群集中的数据节点数。一旦预期数量的节点已加入群集,就会启动本地分片的恢复。默认为0

如果未达到预期的节点数,则恢复过程将等待配置的时间量,然后再尝试恢复。

设置初始化数据恢复进程的超时时间,默认是5分钟。

如果recover_after_time 持续时间超时,只要满足以下条件,恢复就会开始:

设置集群中N个节点启动时进行数据恢复,默认为1。意味着至少有一个节点,该集群才可用。

只要此许多数据或主节点已加入群集,即可恢复。

只要这么多主节点已加入群集,就可以恢复。

只要这么多数据节点已加入群集,就可以恢复。

初始化数据恢复时,并发恢复线程的个数,默认为4。

添加删除节点或负载均衡时并发恢复线程的个数,默认为4。

设置数据恢复时限制的带宽,如入100mb,默认为0,即无限制。

设置这个参数来限制从其它分片恢复数据时最大同时打开并发流的个数,默认为5。

设置这个参数来保证集群中的节点可以知道其它N个有master资格的节点。默认为1,对于大的集群来说,可以设置大一点的值(2-4)

设置集群中自动发现其它节点时ping连接超时时间,默认为3秒,对于比较差的网络环境可以高点的值来防止自动发现时出错。

设置是否打开多播发现节点,默认是true。

设置集群中master节点的初始列表,可以通过这些节点来自动发现新加入集群的节点

应用场景当中经常会遇到模糊查询或多条件匹配查询,数据量较小的情况下通过简单的数据库模糊查询是可以解决的,但是对于数据量庞大的情况,数据库模糊查询就会出现性能问题。这种情况下的一种解决方案就是根据查询内容构建反向索引,借助搜索引擎进行查询,提升查询性能。

目前使用比较多的分布式搜索引擎是ElasticSearch。那么项目中如何使用ES?如何保证ES的数据更新?下面简单做个吵磨戚描述。

Elasticsearch使用可以简单分为两个阶段。数据初始化阶段、数据更新阶段。

数据初始化阶段。数据初始化常见的方式如下:

一、通过应用程序手动将数据库中的数据,调用ES接口API插入ES索引库中。

二、同过数据迁移工具将数据初始化到ES数据库。目前常用的ES同步工具有logstash-input-jdbc、DataX。通过同步迁移工具可以全量将数据库数据初始化到ES索引库中。

数据更新阶段。数据更新阶段常见的处理方式如下:

一、通过应用服务直接调用ES更新接口。这种方式实现比较简单但是对业务侵入性比较大。

二、对于实时性要求不高的可以采用定时任务监控数据表变化然后调用ES接口实现数据更新。

三、业务应用中通过发送消息异步更新数据。

四、通过DataX同步工具定时将修改的数据同步到ES库中。

上述是ElasticSearch使用的简升陵单描述。使用的关键还是数据库与ES间的数据同游手步。能否用的好关键也是数据间的同步。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/bake/11990471.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存