如何用Solr搭建大数据查询平台_IT百科

0×00 开头照例扯淡

自从各种脱裤门事件开始层出不穷，在下就学乖了，各个地方的密码全都改成不一样的，重要帐号的密码定期更换，生怕被人社出祖宗十八代的我，甚至开始用起了假名字，我给自己起一新网名”兴才”，这个看起来还不错的名字，其实是我们家乡骂人土话，意思是脑残人士…. -_-|||额好吧，反正是假的，不要在意这些细节。

这只是名，至于姓氏么，每个帐号的注册资料那里，照着百家姓上赵钱孙李周吴郑王的依次往下排，什么张兴才、李兴才、王兴才……于是也不知道我这样”兴才”了多久，终于有一天，我接到一个陌生电话：您好，请问是马兴才先生吗?

好么，该来的终于还是来了，于是按名索骥，得知某某网站我用了这个名字，然后通过各种途径找，果然，那破站被脱裤子了。

果断Down了那个裤子，然后就一发不可收拾，走上了收藏裤子的不归路，直到有一天，我发现收藏已经非常丰富了，粗略估计得好几十亿条数据，拍脑袋一想，这不能光收藏啊，我也搭个社工库用吧……

0×01 介绍

社工库怎么搭呢，这种海量数据的东西，并不是简单的用mysql建个库，然后做个php查询select * from sgk where username like ‘%xxxxx%’这样就能完事的，也不是某些幼稚骚年想的随便找个4g内存，amd双核的破电脑就可以带起来的，上面这样的语句和系统配置，真要用于社工库查询，查一条记录恐怕得半小时。好在这个问题早就被一种叫做全文搜索引擎的东西解决了，更好的消息是，全文搜索引擎大部分都是开源的，不需要花钱。

目前网上已经搭建好的社工库，大部分是mysql+coreseek+php架构，coreseek基于sphinx，是一款优秀的全文搜索引擎，但缺点是比较轻量级，一旦数据量过数亿，就会有些力不从心，并且搭建集群做分布式性能并不理想，如果要考虑以后数据量越来越大的情况，还是得用其他方案，为此我使用了solr。

Solr的基础是著名的Lucene框架，基于java，通过jdbc接口可以导入各种数据库和各种格式的数据，非常适合开发企业级的海量数据搜索平台，并且提供完善的solr cloud集群功能，更重要的是，solr的数据查询完全基于http，可以通过简单的post参数，返回json,xml,php,python,ruby,csv等多种格式。

以前的solr，本质上是一组servlet，必须放进Tomcat才能运行，从solr5开始，它已经自带了jetty，配置的好，完全可以独立使用，并且应付大量并发请求，具体的架构我们后面会讲到，现在先来进行solr的安装配置。

0×02 安装和配置

以下是我整个搭建和测试过程所用的硬件和软件平台，本文所有内容均在此平台上完成：

软件配置: solr5.5,mysql5.7,jdk8,Tomcat8 Windows10/Ubuntu14.04 LTS

硬件配置: i7 4770k,16G DDR3,2T西数黑盘

2.1 mysql数据库

Mysql数据库的安装和配置我这里不再赘述，只提一点，对于社工库这种查询任务远远多于插入和更新的应用来说，最好还是使用MyISAM引擎。

搭建好数据库后，新建一个库，名为newsgk，然后创建一个表命名为b41sgk,结构如下：

id bigint 主键自动增长

username varchar 用户名

email varchar 邮箱

password varchar 密码

salt varchar 密码中的盐或者第二密码

ip varchar ip、住址、电话等其他资料

site varchar 数据库的来源站点

接下来就是把收集的各种裤子全部导入这个表了，这里推荐使用navicat，它可以支持各种格式的导入，具体过程相当的枯燥乏味,需要很多的耐心，这里就不再废话了，列位看官自己去搞就是了，目前我初步导入的数据量大约是10亿条。

2.2 Solr的搭建和配置

首先下载solr：

$ wget http://mirrors.hust.edu.cn/apache/lucene/solr/5.5.0/solr-5.5.0.tgz

解压缩：

$ tar zxvf solr-5.5.0.tgz

安装jdk8：

$ sudo add-apt-repository ppa:webupd8team/java

$ sudo apt-get update

$ sudo apt-get install oracle-java8-installer

$ sudo apt-get install oracle-java8-set-default

因为是java跨平台的，Windows下和linux下solr是同一个压缩包，windows下jdk的安装这里不再说明。

进入解压缩后的solr文件夹的bin目录，solr.cmd和solr分别是windows和linux下的启动脚本：

因为社工库是海量大数据，而jvm默认只使用512m的内存，这远远不够，所以我们需要修改，打开solr.in.sh文件，找到这一行：

SOLR_HEAP=”512m”

依据你的数据量，把它修改成更高，我这里改成4G，改完保存. 在windows下略有不同，需要修改solr.in.cmd文件中的这一行：

set SOLR_JAVA_MEM=-Xms512m -Xmx512m

同样把两个512m都修改成4G。

Solr的启动，重启和停止命令分别是：

$ ./solr start

$ ./solr restart –p 8983

$ ./solr stop –all

在linux下还可以通过install_solr_service.sh脚本把solr安装为服务，开机后台自动运行。

Solr安装完成，现在我们需要从mysql导入数据，导入前，我们需要先创建一个core，core是solr的特有概念，每个core是一个查询、数据,、索引等的集合体，你可以把它想象成一个独立数据库，我们创建一个新core：

在solr-5.5.0/server/solr子目录下面建立一个新文件夹，命名为solr_mysql，这个是core的名称，在下面创建两个子目录conf和data，把solr-5.5.0/solr-5.5.0/example/example-DIH/solr/db/conf下面的所有文件全部拷贝到我们创建的conf目录中.接下来的配置主要涉及到三个文件， solrconfig.xml， schema.xml和db-data-config.xml。

首先打开db-data-config.xml，修改为以下内容：

</entity>

</document>

</dataConfig>

这个文件是负责配置导入数据源的，请按照mysql实际的设置修改datasource的内容，下面entity的内容必须严格按照mysql中社工库表的结构填写，列名要和数据库中的完全一样。

然后打开solrconfig.xml，先找到这一段：

<str name="managedSchemaResourceName">managed-schema</str>

</schemaFactory>

把它全部注释掉，加上一行，改成这样：

<!-- <schemaFactory class="ManagedIndexSchemaFactory">

<str name="managedSchemaResourceName">managed-schema</str>

</schemaFactory>-->

这是因为solr5 以上默认使用managed-schema管理schema，需要更改为可以手动修改。

然后我们还需要关闭suggest，它提供搜索智能提示，在社工库中我们用不到这样的功能，重要的是，suggest会严重的拖慢solr的启动速度,在十几亿数据的情况下，开启suggest可能会导致solr启动加载core长达几个小时!

同样在solrconfig.xml中，找到这一段：

<str name="name">mySuggester</str>

<str name="lookupImpl">FuzzyLookupFactory</str>

<str name="dictionaryImpl">DocumentDictionaryFactory</str>

<str name="weightField">price</str>

<str name="suggestAnalyzerFieldType">string</str>

</lst>

</searchComponent>

</lst>

<str>suggest</str>

</arr>

</requestHandler>

把这些全部删除，然后保存solrconfig.xml文件。

接下来把managed-schema拷贝一份，重命名为schema.xml (原文件不要删除)，打开并找到以下位置：

只保留_version_和_root_节点，然后把所有的field，dynamicField和copyField全部删除，添加以下的部分：

这里的uniqueKey是配置文件中原有的，用来指定索引字段，必须保留。新建了一个字段名为keyword，它的用途是联合查询，即当需要同时以多个字段做关键字查询时，可以用这一个字段名代替，增加查询效率，下面的copyField即用来指定复制哪些字段到keyword。注意keyword这样的字段，后面的multiValued属性必须为true。

username和email以及keyword这三个字段，用来检索查询关键字，它们的类型我们指定为text_ik，这是一个我们创造的类型，因为solr虽然内置中文分词，但效果并不好，我们需要添加IKAnalyzer中文分词引擎来查询中文。在https://github.com/EugenePig/ik-analyzer-solr5下载IKAnalyzer for solr5的源码包，然后使用Maven编译，得到一个文件IKAnalyzer-5.0.jar，把它放入solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目录中，然后在solrconfig.xml的fieldType部分加入以下内容：

</fieldType>

保存后，core的配置就算完成了，不过要导入mysql数据，我们还需要在mysql网站上下载mysql-connector-java-bin.jar库文件，连同solr-5.5.0/dist目录下面的solr-dataimporthandler-5.5.0.jar，solr-dataimporthandler-extras-5.5.0.jar两个文件，全部拷贝到solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目录中，然后重启solr，就可以开始数据导入工作了。

一、增量索引之删除

昨天已经说过，增量索引其实就是SOLR对上次做过（增量或者全量）索引之后到这次做索引之间的这段时间数据库发生变化的数据进行创建索引，昨天我们说了增加一条数据或者修改一条数据之后创建增量索引，现在来说删除数据的增量索引。

其实这里所说的删除是假删除，什么意思呢？就是并不是说在数据库中把某些数据给彻底删除掉，而是说给你不想创建索引的数据一个标识符，然后告诉

solr，有这个标识符的数据你就不要给我创建索引了，我不需要，然后solr创建索引的时候就会忽视这些有特殊标识符的数据，大概的原理就是这样的，那

么怎么实现的呢？下面来看：

1.1数据库新增字段

昨天做新增的增量索引的时候需要在数据库添加一个字段，今天做删除的，还是需要一个字段，然后用这个字段来标示数据是否需要创建索引，字段如下所示：

字段名称大家可以自己看着定，类型给个int就行，至于长度也随意，我的是0表示需要创建索引的数据，1表示不需要创建索引的数据，也就是我所说的假删除的数据。

1.2修改配置文件

同样，需要将该字段配置到data-config.xml和schema.xml文件中，如下所示：

data-config.xml

注意圈起来的三个地方，首先肯定是需要把isdelete字段变成一个file标签，其次，需要query语句需要添加上where条件，查询出数据库中所有的需要创建索引的数据，然后再添加一个deletedPKQuery语

句，这条语句和deltaQuery与deltaImportQuery语句一样，都是只有在做增量索引的时候起作用，deletedPKQuery是查

询出所有假删除的数据的ID，然后由deltaImportQuery查询出这些ID对应的记录的全部数据，然后在已经创建的索引中删除掉这一部分索引。

schema.xml

schema.xml文件中倒是没有什么大的变化，只需要把isdelete字段添加进来即可：

1.3查看效果

按照上面的配置即可，然后我们来看一下效果，首先是数据库：

还是昨天的17条数据。

SOLR已经创建好的索引：

索引也是17条，和数据库的数据是对应的，下面我把数据库中的其中两条数据的isdelet字段修改成1，然后创建一个增量索引，方法和昨天一样，我就不再截图了，首先还是修改数据库：

把发哥跟梁朝伟的isdelete修改成1，执行增量索引后的结果如下：

可以看到此时的索引少了2条，那到底少的是不是我变成1的两个人呢？我们可以查找一下，找不到的话就对了：

可以看到此时查找周润发，但是只找到了星爷，这个原因还是分词器的问题，昨天已经说过了，下面再查一下梁朝伟：

可以看到查找结果是空的。

通过上面的两条查询，说明我们对假删除所做的增量索引时成功的。

二、定时增量索引

如果每次数据库变化两条数据我们就得到http://localhost:8080/solr这里做一次增量索引，那不是很麻烦吗？所以SOLR提供了定时任务的功能，当然你也可以自己集成，比如用sPRing的定时任务，或者集成Quartz这些，定时执行一下增量索引的URL，也是可以达到相同的目的的，但是我们今天说的并不是这个，下面开始详细说。

首先，需要引入一个JAR包，这个JAR包我已经发在了第一篇文章最后的DEMO里面了，解压之后就可以看到，但是我要说一点的是，我发出的JAR包是修改过源码的JAR包，很多地方给出的JAR包是apache-solr-dataimportscheduler-1.0.jar这

个JAR包，下载地址是http://code.google.com/p/solr-dataimport-scheduler/downloads

/list，但是这个jar包放入tomcat下的solr项目的lib包后会出错，其实也不是出错，而是出现下面的问题：

http请求一直返回415，提示不支持的媒体类型，

这个问题上周六折腾了我一天的时间，快被郁闷死了，后来在网上查资料的时候看到了别人的一篇文章，也才得以解决，一会儿我会把那个文章地址也发出来，这是

什么原因呢？原因就是这个jar包中的一个类在发送http请求时使用的是post方式，但是我们这里发送的请求却是get方式，所以才一直415，很蛋

疼有没有，所以需要进入jar包，修改源码之后才能正常工作，我看的那篇文章地址是:http://blog.csdn.net/zwx19921215

/article/details/43152307,里面讲的很详细，还有另外的一个问题，大家可以看一下，好了，把这个jar包引入solr的lib

包之后进行下一步。

第二步就是在solr的web.xml文件中添加如下代码：

第三步，解压apache-solr-dataimportscheduler-1.0.jar文件，从解压出来的文件夹中找出dataimport.properties文件，然后复制该文件到你的SOLR_HOME目录下的conf文件夹中，

注意，这个conf文件夹并不是SOLR_HOME\collection1下的conf，而是SOLR_HOME\conf文件夹，以前是不存在的，需要你自己创建。　、

第四步，打开dataimport.properties文件，修改该文件内容，修改后的文件内容如下所示：

#################################################

# #

# dataimport scheduler properties #

# #

#################################################

# to sync or not to sync

# 1 - activeanything else - inactive

syncEnabled=1

# which cores to schedule

# in a multi-core environment you can decide which cores you want syncronized

# leave empty or comment it out if using single-core deployment

syncCores=collection1

# solr server name or ip address

# [defaults to localhost if empty]

server=localhost

# solr server port

# [defaults to 80 if empty]

port=8080

# application name/context

# [defaults to current ServletContextListener's context (app) name]

webapp=solr

# URL params [mandatory]

# remainder of URL

params=/dataimport?command=delta-import&clean=false&commit=true&wt=json&optimize=false

# schedule interval

# number of minutes between two runs

# [defaults to 30 if empty]

interval=1

# 重做索引的时间间隔，单位分钟，默认7200，即1天

# 为空,为0,或者注释掉:表示永不重做索引

reBuildIndexInterval=7200

# 重做索引的参数

reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true

# 重做索引时间间隔的计时开始时间，第一次真正执行的时间=reBuildIndexBeginTime+reBuildIndexInterval*60*1000；

# 两种格式：2012-04-11 03:10:00 或者 03:10:00，后一种会自动补全日期部分为服务启动时的日期

reBuildIndexBeginTime=03:10:00

注意：

1.syncCores=collection1表示对collection1这个core定时创建索引，如果不设置的话，默认也是对collection1创建索引，如果用到了multicore，那么使用逗号隔开即可。

2.server=localhost，port=8080改成你自己的容器地址和端口号即可；

3.interval=1表示定时增量索引的时间间隔，单位是分钟；

4.其他的按照上面的注释配置即可，也没什么难理解的；

以下资料整理自网络,以及查看solr帮助文档。主要分为两部分，第一部分是对《db-data-config.xml》的配置内容的讲解（属于高级内容），第二部分是DataImportHandler（属于基础）,第三部分是对db-data-config.xml的进阶

第一部分是对《db-data-config.xml》

query是获取全部数据的SQL

deltaImportQuery是获取增量数据时使用的SQL

deltaQuery是获取pk的SQL

parentDeltaQuery是获取父Entity的pk的SQL

Full

Import工作原理：

执行本Entity的Query，获取所有数据；

针对每个行数据Row，获取pk，组装子Entity的Query；

执行子Entity的Query，获取子Entity的数据。

Delta

Import工作原理：

查找子Entity，直到没有为止；

执行Entity的deltaQuery，获取变化数据的pk；

合并子Entity

parentDeltaQuery得到的pk；

针对每一个pk

Row，组装父Entity的parentDeltaQuery；

执行parentDeltaQuery，获取父Entity的pk；

执行deltaImportQuery，获取自身的数据；

如果没有deltaImportQuery，就组装Query

限制：

子Entity的query必须引用父Entity的pk

子Entity的parentDeltaQuery必须引用自己的pk

子Entity的parentDeltaQuery必须返回父Entity的pk

deltaImportQuery引用的必须是自己的pk

第二部分是DataImportHandler

关于DataImportHandler的具体使用方法，详见下文，如果你英文超级好，那看这个链接吧：http://wiki.apache.org/solr/DataImportHandler

大多数的应用程序将数据存储在关系数据库、xml文件中。对这样的数据进行搜索是很常见的应用。所谓的DataImportHandler提供一种可配置的方式向solr导入数据，可以一次全部导入，也可以增量导入。

概览

目标

能够读取关系数据库中的数据。

通过可配置的方式，能够将数据库中多列、多表的数据生成solr文档

能够通过solr文档更新solr

提供通过配置文件就能够导入所有数据的能力

能够发现并处理

由insert、update带来的变化（我们假定在表中有一个叫做“last-modified的列”）

能够配置 “完全导入”和“增量导入”的时间

让读取xml文件，并建立索引成为可配置。

能够将

其他的数据源（例如：ftp，scp，etc）或者其他格式的文档（Json，csv）以插件的形式集成到项目中。

设计思路

这个Handler首先要在solrconfig.xml文件中配置下，如下所示。

<str name="config">/home/username/data-config.xml</str>

</lst>

</requestHandler>

从它的名字上，我们或许也可以猜到，

DataImportHandler正是requestHandler的实现。我们一共需要在两个地方配置文件中进行一些配置。

solrconfig.xml 。

data-config.xml必须在这个文件中配置，datasource也可以。不过，一般将datasource放在data-config.xml文件中。

data-config.xml

怎样获取数据？（查询语句、url等等）

要读什么样的数据（关系数据库中的列、或者xml的域）

做什么样的处理（修改/添加/删除）

跟关系数据库一起使用

下面几个步骤是必要的.

定义一个data-config.xml 文件，并这个它的路径配置到solrconfig.xml

中关于DataImportHandler的配置中。

给出Connection的信息（假设你选择在solrconfig中配置datasource）

打开DataImportHandler页面去验证，是否该配置的都配置好了。http://localhost:8983/solr/dataimport

使用“完全导入”命令将数据从数据库中导出，并提交给solr建立索引

使用“增量导入”命令对数据库发生的变化的数据导出，并提交给solr建立索引。

配置数据源

将dataSource标签直接添加到dataConfig下面，即成为dataConfig的子元素.

数据源也可以配置在solrconfig.xml中

属性type 指定了实现的类型。它是可选的。默认的实现是JdbcDataSource。

属性 name 是datasources的名字，当有多个datasources时，可以使用name属性加以区分

其他的属性都是随意的，根据你使用的DataSource实现而定。

当然你也可以实现自己的DataSource。

多数据源

一个配置文件可以配置多个数据源。增加一个dataSource元素就可以增加一个数据源了。name属性可以区分不同的数据源。如果配置了多于一个的数据源，那么要注意将name配置成唯一的。

例如：

然后这样使用 ..

</entity>

</entity>

配置JdbcDataSource

JdbcDataSource中的属性有

driver(必需的)：jdbc驱动名称

url（必需的）：jdbc链接

user：用户名

password：密码

批量大小：jdbc链接中的批量大小

任何其他的在JdbcDataSource中配置的属性，都会被直接传给jdbc

driver

配置data-config.xml

solr

document是schema，它的域上的值可能来自于多个表.

data-config.xml的根元素是document。一个document元素代表了一种文档。一个document元素中包含了一个或者多个root实体。一个root实体包含着一些子实体，这些子实体能够包含其他的实体。实体就是，关系数据库上的表或者视图。每个实体都能够包含多个域，每个域对应着数据库返回结果中的一列。域的名字跟列的名字默认是一样的。如果一个列的名字跟solr

field的名字不一样，那么属性name就应该要给出。其他的需要的属性在solrschema.xml文件中配置。

为了能够从数据库中取得想要的数据，我们的设计支持标准sql规范。这使得用户能够使用他任何想要的sql语句。root实体是一个中心表，使用它的列可以把表连接在一起。

dataconfig的结构

dataconfig的结构不是一成不变的,entity和field元素中的属性是随意的，这主要取决于processor和transformer。

以下是entity的默认属性

name(必需的):name是唯一的，用以标识entity

processor:只有当datasource不是RDBMS时才是必需的。默认值是SqlEntityProcessor

transformer:转换器将会被应用到这个entity上，详情请浏览transformer部分。

pk：entity的主键，它是可选的，但使用“增量导入”的时候是必需。它跟schema.xml中定义的uniqueKey没有必然的联系，但它们可以相同。

rootEntity：默认情况下，document元素下就是根实体了，如果没有根实体的话，直接在实体下面的实体将会被看做跟实体。对于根实体对应的数据库中返回的数据的每一行，solr都将生成一个document。

一下是SqlEntityProcessor的属性

query (required) :sql语句

deltaQuery : 只在“增量导入”中使用

parentDeltaQuery : 只在“增量导入”中使用

deletedPkQuery : 只在“增量导入”中使用

deltaImportQuery : (只在“增量导入”中使用) .

如果这个存在，那么它将会在“增量导入”中导入phase时代替query产生作用。这里有一个命名空间的用法${dataimporter.delta.}详情请看solr1.4.

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/bake/11445563.html

如何用Solr搭建大数据查询平台

发表评论

评论列表（0条）