对数据库中的数据建立倒排索引
1. 启动本机的mysql数据库
我新建test数据库,并在其中新建test表,表有两个字段,ID与Val。ID表示文档编号,Val表示文档内容,这是一个最简单的数据源。
2. 在Solr中配置数据源
在\webapps\solr\conf\multicore\core0\conf\db-data-config.xml中作如下配置:
[html] view plain copy
<dataConfig>
<dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/test" user="root" password="XXXXXX" />
<document name="messages">
<entity name="message" transformer="ClobTransformer" query="select * from test1">
<field column="ID" name="id" />
<field column="Val" name="complex" />
</entity>
</document>
</dataConfig>
此处的complex应与schema中的field name相对应。
3. 重启tomcat,建索引:
4. 测试查询:
我们此处选择返回查询结果列表的形式是JSON
至此,solr的最简单的一次配置完成了。我们可以看出其中的数据源是怎么变为倒排索引,实现快速查询。企业或网站在数据量极大时,可以使用这种方式建立自己的搜索引擎。接下来我们可以让Nutch和Solr配合,做自己的搜索引擎。
Solr支持从富文本文件中,如pdf,word中抽取内容建立索引。
首先,需要配置支持这一功能的requestHandler。编辑solrconfig.xml,加入:
<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" ><lst name="defaults">
<str name="fmap.content">content</str>
<str name="fmap.Content-Type">Content-Type</str>
<str name="uprefix">ignored_</str>
</lst>
<lst name="date.formats">
<str>yyyy-MM-dd</str>
</lst>
</requestHandler>
solr.extraction.ExtractingRequestHandler就是solr中用来处理富文本的handler。为了使用这个类我们我们需要拷贝jar包:solr-dataimporthandler-extras.jar到lib目录,并确认solrconfig.xml中的lib配置包含它。
<div class="alert alert-info" role="info">
ExtractingRequestHandler底层实际是使用apache Tika进行文件内容抽取的,
</div>
调用/update/extract完成文件索引
调用/update/extrac的方式有很多种,下面介绍使用solr4j api在java工程里调用:
//建立客户端连接SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1")
//单个文件索引
public void indexFromFile(String fileName,String id) throws Exception{
//ContentStreamUpdateRequest 是专门用来提交文件的
ContentStreamUpdateRequest request=new ContentStreamUpdateRequest("/update/extract")
String contentType="application/text"
request.addFile(new File(fileName), contentType)
//literal.xxx 文件以外的字段,xxx将直接映射到schema.xml中的同名字段
request.setParam("literal.id", String.valueOf(id))
request.setParam("literal.author", author)
request.setParam("literal.title", tilte)
request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE, true, true)
client.request(request)
client.commit()
}
public static void main(String[] args) {
try{
SolrMananger client=new SolrMananger()
client.indexFromFile("e:/apache-solr-ref-guide-5.3.pdf", 1, "Justn", "solr-ref")
}catch(Exception e){
e.printStackTrace()
}
}
运行后,查看solr控制台,使用query验证文件是否成功索引。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)