如果用lucene在数据库中搜索一个人的姓名,它会将数据库内有关这个名字的所有内容搜索出来吗_sql

精确匹配时就是这样。因为在建立倒排索引时，就将每个出现该人名的文档的docID，在该文档中出现的频率fre和每次出现的位置信息position加入倒排表的一个posting中。

如：docID freqposition docIDfreq positon ... ... ...

lunarmid { 2 2 ( 65,43) } ,{ 4 3（1, 4, 98）}, .... .....

另外，讲到lucene这种检索时，数据库一般称为索引数据库。

这个要看你这个表的字段是怎么设计的，有没有text或(n)varchar(max)之类的大数据类型，如果都是数字型，那要比字符型快n多，普通的提速建索引，但不可能每个字段都建一个索引吧，除非你的表只用来查询，不做其他新增、删除、修改 *** 作。

事情都没有绝对的，要具体情况具体分析。

要查询大量的文本类型的话，如新闻内容、标题等，数据库自身有“全文索引”，要么就采用第三方搜索引擎（比如：lucene），把整个表内容不在数据库搜，这样效率最高。

方法一：依次根据每个docid获取文档然后写入txt中，这样的以来，就避免了内存不足的缺点，但是这样单条读取的话，速度上可能会慢一点，但能满足需求无可厚非。伪代码如下

Java代码

try{

directory=FSDirectory.open（new File（indexReadPath））；//打开索引文件夹

IndexReader reader=DirectoryReader.open（directory）；//读取目录

IndexSearcher search=new IndexSearcher（reader）；//初始化查询组件

for（int i=0i

Document doc=search.doc（i）；//依次获取每个docid对应的Document

//可以在此部，做个批量 *** 作，加快写入速度

}

reader.close（）；//关闭资源

directory.close（）；//关闭连接

}catch（Exception e）{

e.printStackTrace（）；

}

try{

directory=FSDirectory.open（new File（indexReadPath））；//打开索引文件夹

IndexReader reader=DirectoryReader.open（directory）；//读取目录

IndexSearcher search=new IndexSearcher（reader）；//初始化查询组件

for（int i=0i

Document doc=search.doc（i）；//依次获取每个docid对应的Document

//可以在此部，做个批量 *** 作，加快写入速度

}

reader.close（）；//关闭资源

directory.close（）；//关闭连接

}catch（Exception e）{

e.printStackTrace（）；

}

Lucene的分页，总的来说有两种形式，小编总结如下图表格。（如果存在不合适之处，欢迎指正！）

编号方式优点缺点

1 在ScoresDocs里进行分页无需再次查询索引，速度很快在海量数据时，会内存溢出

2 利用SearchAfter,再次查询分页适合大批量数据的分页再次查询，速度相对慢一点，但可以利用缓存弥补

从上图我们可以分析出，ScoreDocs适合在数据量不是很大的场景下进行分页，而SearchAfter则都适合，所以，我们要根据自己的业务需求，合理的选出适合自己的分页方式。

在我们了解这2中分页技术的优缺点之后，我们再来探讨下上面那个读2亿数据存入txt文本里，在这里，SocreDocs不适合这种场景，当然如果你内存足够大的话，可以尝试下，通用分页分批读取的方式，可以提升我们的写入效率，效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合，但是作为示例，下面小编给出使用ScoreDocs进行分页的代码：

Java代码

try{

directory=FSDirectory.open（new File（indexReadPath））；//打开索引文件夹

IndexReader reader=DirectoryReader.open（directory）；//读取目录

IndexSearcher search=new IndexSearcher（reader）；//初始化查询组件

TopDocs all=search.search（new MatchAllDocsQuery（）， 50000）；

int offset=0//起始位置

int pageSize=30//分页的条数

int total=30//结束条数

int z=0

while（z<=50）{//总分页数

System.out.println（"=============================="）；

pageScoreDocs（offset,total,search, all.scoreDocs）；//调用分页打印

offset=（z*pageSize+pageSize）；//下一页的位置增量

z++//分页数+1

total=offset+pageSize//下一次的结束分页量

}

reader.close（）；//关闭资源

directory.close（）；//关闭连接

}catch（Exception e）{

e.printStackTrace（）；

}

try{

directory=FSDirectory.open（new File（indexReadPath））；//打开索引文件夹

IndexReader reader=DirectoryReader.open（directory）；//读取目录

IndexSearcher search=new IndexSearcher（reader）；//初始化查询组件

TopDocs all=search.search（new MatchAllDocsQuery（）， 50000）；

int offset=0//起始位置

int pageSize=30//分页的条数

int total=30//结束条数

int z=0

while（z<=50）{//总分页数

System.out.println（"=============================="）；

pageScoreDocs（offset,total,search, all.scoreDocs）；//调用分页打印

offset=（z*pageSize+pageSize）；//下一页的位置增量

z++//分页数+1

total=offset+pageSize//下一次的结束分页量

}

reader.close（）；//关闭资源

directory.close（）；//关闭连接

}catch（Exception e）{

e.printStackTrace（）；

}

Java代码

public void pageScoreDocs（int offset,int total,IndexSearcher searcher,ScoreDoc[] doc） throws Exception{

//System.out.println（"offset:"+offset+"===>"+total）；

for（int i=offseti

//System.out.println（"i"+i+"==>"+doc.length）；

if（i>doc.length-1）{//当分页的长度数大于总数就停止

break

}else{

Document dosc=searcher.doc（doc[i].doc）；

System.out.println（dosc.get（"name"））；

}

public void pageScoreDocs（int offset,int total,IndexSearcher searcher,ScoreDoc[] doc） throws Exception{

//System.out.println（"offset:"+offset+"===>"+total）；

for（int i=offseti

//System.out.println（"i"+i+"==>"+doc.length）；

if（i>doc.length-1）{//当分页的长度数大于总数就停止

break

}else{

Document dosc=searcher.doc（doc[i].doc）；

System.out.println（dosc.get（"name"））；

}

最后我们来看下使用SearcherAfter进行分页的方式，代码如下：

Java代码

try{

directory=FSDirectory.open（new File（indexReadPath））；//打开索引文件夹

IndexReader reader=DirectoryReader.open（directory）；//读取目录

IndexSearcher search=new IndexSearcher（reader）；//初始化查询组件

int pageStart=0

ScoreDoc lastBottom=null//相当于pageSize

while（pageStart<10）{//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页 *** 作

TopDocs paged=null

paged=search.searchAfter（lastBottom, new MatchAllDocsQuery（），null,30）；//查询首次的30条

if（paged.scoreDocs.length==0）{

break//如果下一页的命中数为0的情况下，循环自动结束

}

page（search,paged）；//分页 *** 作，此步是传到方法里对数据做处理的

pageStart+=paged.scoreDocs.length//下一次分页总在上一次分页的基础上

lastBottom=paged.scoreDocs[paged.scoreDocs.length-1]//上一次的总量-1,成为下一次的lastBottom

}

reader.close（）；//关闭资源

directory.close（）；//关闭连接

}catch（Exception e）{

e.printStackTrace（）；

}

try{

directory=FSDirectory.open（new File（indexReadPath））；//打开索引文件夹

IndexReader reader=DirectoryReader.open（directory）；//读取目录

IndexSearcher search=new IndexSearcher（reader）；//初始化查询组件

int pageStart=0

ScoreDoc lastBottom=null//相当于pageSize

while（pageStart<10）{//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页 *** 作

TopDocs paged=null

paged=search.searchAfter（lastBottom, new MatchAllDocsQuery（），null,30）；//查询首次的30条

if（paged.scoreDocs.length==0）{

break//如果下一页的命中数为0的情况下，循环自动结束

}

page（search,paged）；//分页 *** 作，此步是传到方法里对数据做处理的

pageStart+=paged.scoreDocs.length//下一次分页总在上一次分页的基础上

lastBottom=paged.scoreDocs[paged.scoreDocs.length-1]//上一次的总量-1,成为下一次的lastBottom

}

reader.close（）；//关闭资源

directory.close（）；//关闭连接

}catch（Exception e）{

e.printStackTrace（）；

}

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/6696331.html

如果用lucene在数据库中搜索一个人的姓名,它会将数据库内有关这个名字的所有内容搜索出来吗

发表评论

评论列表（0条）