如何使用Solr索引MySql数据库

如何使用Solr索引MySql数据库,第1张

在solr与tomcat整合文章中,我用的索引库是mycore,现在就以这个为例。

首先要准备jar包:solr-dataimporthandler-4.8.1.jar、solr-dataimporthandler-extras-4.8.1.jar和mysql-connector-java-5.0.7-bin.jar这三个包到solr的tomcat的webapps\solr\WEB-INF\lib下

在这个文件夹的conf下配置两个文件,添加一个文件。先配置solrconfig.xml。

在该文件下添加一个新节点。

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">

<lst name="defaults">

<str name="config">data-config.xml</str>

</lst>

</requestHandler>

在solrconfig.xml的同目录下创建data-config.xml。

配置:

复制代码

<dataConfig>

<dataSource type="JdbcDataSource"

driver="com.mysql.jdbc.Driver"

url="jdbc:mysql://localhost:3306/courseman"

user="root"

password="mysql" />

<document>

<entity name="student"

query="SELECT * FROM student">

<field column="id" name="id" />

<field column="name" name="name" />

<field column="gender" name="gender" />

<field column="major" name="major" />

<field column="grade" name="grade" />

</entity>

</document>

</dataConfig>

复制代码

schemal.xml的配置

复制代码

<?xml version="1.0" ?>

<!--

Licensed to the Apache Software Foundation (ASF) under one or more

contributor license agreements. See the NOTICE file distributed with

this work for additional information regarding copyright ownership.

The ASF licenses this file to You under the Apache License, Version 2.0

(the "License")you may not use this file except in compliance with

the License. You may obtain a copy of the License at

Unless required by applicable law or agreed to in writing, software

distributed under the License is distributed on an "AS IS" BASIS,

WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

See the License for the specific language governing permissions and

limitations under the License.

-->

<schema name="example core one" version="1.1">

<fieldtype name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>

<fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>

<fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>

<!-- general -->

<field name="id" type="int"indexed="true" stored="true" />

<field name="gender" type="string"indexed="true" stored="true" />

<field name="name" type="string"indexed="true" stored="true" />

<field name="major" type="string"indexed="true" stored="true" />

<field name="grade" type="string"indexed="true" stored="true" />

<field name="_version_" type="long" indexed="true" stored="true"/>

<!-- field to use to determine and enforce document uniqueness. -->

<uniqueKey>id</uniqueKey>

<!-- field for the QueryParser to use when an explicit fieldname is absent -->

<defaultSearchField>name</defaultSearchField>

<!-- SolrQueryParser configuration: defaultOperator="AND|OR" -->

<solrQueryParser defaultOperator="OR"/>

</schema>

复制代码

默认的文件不是这样的,稍微改动了一下。

field 的type类型是根据fieldtype 的name定义的。class是solr自定义的不能更改。

shcema.xml文件的field字段的属性介绍:

(1)name:字段名称

(2)type:字段类型(此处type不是java类型,而是下面定义的fieldType)

(3)indexed:是否索引看true--solr会对这个字段进行索引,只有经过索引的字段才能被搜索、排序等;false--不索引

(4)stored:是否存储看true--存储,当我们需要在页面显示此字段时,应设为true,否则false。

(5)required:是否必须看true--此字段为必需,如果此字段的内容为空,会报异常;false--不是必需

(6)multiValued:此字段是否可以保存多个值看

(7)omitNorms:是否对此字段进行解析看有时候我们想通过某个字段的完全匹配来查询信息,那么设置 indexed="true"、omitNorms="true"。

(8)default:设置默认值

有这样一个FieldType描述:

<fieldType name="text_general" positionIncrementGap="100">

<analyzer type="index">

<tokenizer/>

<filter ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />

<filter/>

</analyzer>

<analyzer type="query">

<tokenizer/>

<filter ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />

<filter synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

<filter/>

</analyzer>

</fieldType>

属性说明:

(1)name:类型名称,<field>中的type引用的就是这个name

(2)class:solr自定义的类型

(3)<analyzer type="index">定义建立索引时使用的分词器及过滤器

(4)<analyzer type="query">定义搜索时所使用的分词器及过滤器

(5)<tokenizer/>定义分词器

(6)<filter/>定义过滤器

uniqueKey属性

<uniqueKey>id</uniqueKey>

类似于数据表数据的id,solr索引库中最好定义一个用于标示document唯一性的字段,此字段主要用于删除document。

defaultSearchField属性

就是你在做query搜寻时若不指定特定栏位做检索时, Solr就会只查这个栏位.

<defaultSearchField>default</defaultSearchField>

copyField属性

是用来复制你一个栏位里的值到另一栏位用. 如你可以将name里的东西copy到major里, 这样solr做检索时也会检索到name里的东西.

<copyField source="name" dest="major"/>

现在可以将数据库的数据导入solr了。

点击Execute就可以了。

Solr 是一个可供企业使用的 基于 Lucene 的开箱即用的搜索服务器 对Lucene不熟?那么建议先看看下面两篇文档

实战Lucene 第 部分 初识 Lucene lo lucene /

用Lucene加速Web搜索应用程序的开发 lucene /

一 solr介绍

solr是基于Lucene Java搜索库的企业级全文搜索引擎 目前是apache的一个项目 它的官方网址在 solr需要运行在一个servlet 容器里 例如tomcat solr在lucene的上层提供了一个基于HTTP/XML的Web Services 我们的应用需要通过这个服务与solr进行交互

二 solr安装和配置

关于solr的安装和配置 这里也有两篇非常好的文档 作者同时也是 Lucene Java 项目的提交人和发言人

使用Apache Solr实现更加灵巧的搜索 solr /l

solr /l

下面主要说说需要注意的地方

Solr的安装非常简单 下载solr的zip包后解压缩将dist目录下的war文件改名为solr war直接复制到tomcat 的webapps目录即可 注意一定要设置solr的主位置 有三种方法 我采用的是在tomcat里配置java p/env/solr/home的一个JNDI指向solr的主目录(example目录下) 建立/tomcat /conf/Catalina/localhost/solr xml文件

<Context docBase= D:/solr war debug= crossContext= true ><Environment name= solr/home type= java lang String value= D:/solr/solr override= true /></Context>

观察这个指定的solr主位置 里面存在两个文件夹 conf和data 其中conf里存放了对solr而言最为重要的两个配置文件schema xml和solrconfig xml data则用于存放索引文件

schema xml主要包括types fields和其他的一些缺省设置

solrconfig xml用来配置Solr的一些系统属性 例如与索引和查询处理有关的一些常见的配置选项 以及缓存 扩展等等

上面的文档对这两个文件有比较详细的说明 非常容易上手 注意到schema xml里有一个

<uniqueKey>url</uniqueKey>

的配置 这里将url字段作为索引文档的唯一标识符 非常重要

三 加入中文分词

对全文检索而言 中文分词非常的重要 这里采用了qieqie庖丁分词(非常不错 )) 集成非常的容易 我下载的是 alpha 版本 其中它支持最多切分和按最大切分 创建自己的一个中文TokenizerFactory继承自solr的BaseTokenizerFactory

/** * Created by IntelliJ IDEA * User: ronghao * Date: * Time: : : * 中文切词 对庖丁切词的封装 */ public class ChineseTokenizerFactory extends BaseTokenizerFactory { /** * 最多切分 默认模式 */ public static final String MOST_WORDS_MODE = most words /** * 按最大切分 */ public static final String MAX_WORD_LENGTH_MODE = max word length private String mode = nullpublic void setMode(String mode) { if (mode==null||MOST_WORDS_MODE equalsIgnoreCase(mode) || default equalsIgnoreCase(mode)) { this mode=MOST_WORDS_MODE} else if (MAX_WORD_LENGTH_MODE equalsIgnoreCase(mode)) { this mode=MAX_WORD_LENGTH_MODE} else { throw new IllegalArgumentException( 不合法的分析器Mode 参数设置: + mode)} } @Override public void init(Map args) { super init(args)setMode(args get( mode ))} public TokenStream create(Reader input) { return new PaodingTokenizer(input PaodingMaker make() createTokenCollector())} private TokenCollector createTokenCollector() { if( MOST_WORDS_MODE equals(mode)) return new MostWordsTokenCollector()if( MAX_WORD_LENGTH_MODE equals(mode)) return new MaxWordLengthTokenCollector()throw new Error( never happened )} }

在schema xml的字段text配置里加入该分词器

<fieldtype name= text class= solr TextField positionIncrementGap= >

<*** yzer type= index >

<tokenizer class= ronghao fulltextsearch *** yzer ChineseTokenizerFactory mode= most words />          <filter class= solr StopFilterFactory ignoreCase= true words= stopwords txt />

<filter class= solr WordDelimiterFilterFactory generateWordParts= generateNumberParts= catenateWords= catenateNumbers= catenateAll= />

<filter class= solr LowerCaseFilterFactory />

<filter class= solr RemoveDuplicatesTokenFilterFactory />

</ *** yzer>

<*** yzer type= query >

<tokenizer class= ronghao fulltextsearch *** yzer ChineseTokenizerFactory mode= most words />  

<filter class= solr SynonymFilterFactory synonyms= synonyms txt ignoreCase= true expand= true />

<filter class= solr StopFilterFactory ignoreCase= true words= stopwords txt />

<filter class= solr WordDelimiterFilterFactory generateWordParts= generateNumberParts= catenateWords= catenateNumbers= catenateAll= />

<filter class= solr LowerCaseFilterFactory />

<filter class= solr RemoveDuplicatesTokenFilterFactory />

</ *** yzer>

</fieldtype>

完成后重启tomcat 即可在

体验到庖丁的中文分词 注意要将paoding *** ysis jar复制到solr的lib下 注意修改jar包里字典的home

四 与自己应用进行集成

Solr安装完毕 现在可以将自己的应用与solr集成 其实过程非常的简单 应用增加数据——>根据配置的字段构建add的xml文档——>post至solr/update

应用删除数据à根据配置的索引文档唯一标识符构建delete的xml文档——>post至solr/update

检索数据à构建查询xml—>get至/solr/select/——>对solr返回的xml进行处理——>页面展现

具体的xml格式可以在solr网站找到 另外就是solr支持高亮显示 非常方便

关于中文 solr内核支持UTF 编码 所以在tomcat里的server xml需要进行配置

<Connector port= maxHttpHeaderSize= URIEncoding= UTF …/>

另外 向solr Post请求的时候需要转为utf 编码 对solr 返回的查询结果也需要进行一次utf 的转码 检索数据时对查询的关键字也需要转码 然后用 + 连接

String[] array = StringUtils split(query null )for (String str : array) { result = result + URLEncoder encode(str UTF ) + + }

lishixinzhi/Article/program/Java/hx/201311/25984

solr是一个全文检索数据库

对外提供了数据读取和写入的接口

数据当然主要是从接口来 主要是http通信,

你要按solr文档数据提交格式来写入数据

细节要查文档了


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10773174.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-11
下一篇 2023-05-11

发表评论

登录后才能评论

评论列表(0条)

保存