如果用lucene在数据库中搜索一个人的姓名,它会将数据库内有关这个名字的所有内容搜索出来吗

如果用lucene在数据库中搜索一个人的姓名,它会将数据库内有关这个名字的所有内容搜索出来吗,第1张

精确匹配时就是这样。因为在建立倒排索引时,就将每个出现该人名的文档的docID,在该文档中出现的频率fre和每次出现的位置信息position加入倒排表的一个posting中。

如:docID freqposition docIDfreq positon ... ... ...

lunarmid { 2 2 ( 65,43) } ,{ 4 3(1, 4, 98)}, .... .....

另外,讲到lucene这种检索时,数据库一般称为索引数据库。

这个要看你这个表的字段是怎么设计的,有没有text或(n)varchar(max)之类的大数据类型,如果都是数字型,那要比字符型快n多,普通的提速建索引,但不可能每个字段都建一个索引吧,除非你的表只用来查询,不做其他新增、删除、修改 *** 作。

事情都没有绝对的,要具体情况具体分析。

要查询大量的文本类型的话,如新闻内容、标题等,数据库自身有“全文索引”,要么就采用第三方搜索引擎(比如:lucene),把整个表内容不在数据库搜,这样效率最高。

方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。伪代码如下

Java代码

try{

directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹

IndexReader reader=DirectoryReader.open(directory);//读取目录

IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

for(int i=0i

Document doc=search.doc(i);//依次获取每个docid对应的Document

//可以在此部,做个批量 *** 作,加快写入速度

}

reader.close();//关闭资源

directory.close();//关闭连接

}catch(Exception e){

e.printStackTrace();

}

try{

directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹

IndexReader reader=DirectoryReader.open(directory);//读取目录

IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

for(int i=0i

Document doc=search.doc(i);//依次获取每个docid对应的Document

//可以在此部,做个批量 *** 作,加快写入速度

}

reader.close();//关闭资源

directory.close();//关闭连接

}catch(Exception e){

e.printStackTrace();

}

Lucene的分页,总的来说有两种形式,小编总结如下图表格。(如果存在不合适之处,欢迎指正!)

编号 方式 优点 缺点

1 在ScoresDocs里进行分页 无需再次查询索引,速度很快 在海量数据时,会内存溢出

2 利用SearchAfter,再次查询分页 适合大批量数据的分页 再次查询,速度相对慢一点,但可以利用缓存弥补

从上图我们可以分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,所以,我们要根据自己的业务需求,合理的选出适合自己的分页方式。

在我们了解这2中分页技术的优缺点之后,我们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,当然如果你内存足够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合,但是作为示例,下面小编给出使用ScoreDocs进行分页的代码:

Java代码

try{

directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹

IndexReader reader=DirectoryReader.open(directory);//读取目录

IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

TopDocs all=search.search(new MatchAllDocsQuery(), 50000);

int offset=0//起始位置

int pageSize=30//分页的条数

int total=30//结束条数

int z=0

while(z<=50){//总分页数

System.out.println("==============================");

pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印

offset=(z*pageSize+pageSize);//下一页的位置增量

z++//分页数+1

total=offset+pageSize//下一次的结束分页量

}

reader.close();//关闭资源

directory.close();//关闭连接

}catch(Exception e){

e.printStackTrace();

}

try{

directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹

IndexReader reader=DirectoryReader.open(directory);//读取目录

IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

TopDocs all=search.search(new MatchAllDocsQuery(), 50000);

int offset=0//起始位置

int pageSize=30//分页的条数

int total=30//结束条数

int z=0

while(z<=50){//总分页数

System.out.println("==============================");

pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印

offset=(z*pageSize+pageSize);//下一页的位置增量

z++//分页数+1

total=offset+pageSize//下一次的结束分页量

}

reader.close();//关闭资源

directory.close();//关闭连接

}catch(Exception e){

e.printStackTrace();

}

Java代码

public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{

//System.out.println("offset:"+offset+"===>"+total);

for(int i=offseti

//System.out.println("i"+i+"==>"+doc.length);

if(i>doc.length-1){//当分页的长度数大于总数就停止

break

}else{

Document dosc=searcher.doc(doc[i].doc);

System.out.println(dosc.get("name"));

}

}

public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{

//System.out.println("offset:"+offset+"===>"+total);

for(int i=offseti

//System.out.println("i"+i+"==>"+doc.length);

if(i>doc.length-1){//当分页的长度数大于总数就停止

break

}else{

Document dosc=searcher.doc(doc[i].doc);

System.out.println(dosc.get("name"));

}

}

最后我们来看下使用SearcherAfter进行分页的方式,代码如下:

Java代码

try{

directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹

IndexReader reader=DirectoryReader.open(directory);//读取目录

IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

int pageStart=0

ScoreDoc lastBottom=null//相当于pageSize

while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页 *** 作

TopDocs paged=null

paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条

if(paged.scoreDocs.length==0){

break//如果下一页的命中数为0的情况下,循环自动结束

}

page(search,paged);//分页 *** 作,此步是传到方法里对数据做处理的

pageStart+=paged.scoreDocs.length//下一次分页总在上一次分页的基础上

lastBottom=paged.scoreDocs[paged.scoreDocs.length-1]//上一次的总量-1,成为下一次的lastBottom

}

reader.close();//关闭资源

directory.close();//关闭连接

}catch(Exception e){

e.printStackTrace();

}

try{

directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹

IndexReader reader=DirectoryReader.open(directory);//读取目录

IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

int pageStart=0

ScoreDoc lastBottom=null//相当于pageSize

while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页 *** 作

TopDocs paged=null

paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条

if(paged.scoreDocs.length==0){

break//如果下一页的命中数为0的情况下,循环自动结束

}

page(search,paged);//分页 *** 作,此步是传到方法里对数据做处理的

pageStart+=paged.scoreDocs.length//下一次分页总在上一次分页的基础上

lastBottom=paged.scoreDocs[paged.scoreDocs.length-1]//上一次的总量-1,成为下一次的lastBottom

}

reader.close();//关闭资源

directory.close();//关闭连接

}catch(Exception e){

e.printStackTrace();

}


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6696331.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-26
下一篇 2023-03-26

发表评论

登录后才能评论

评论列表(0条)

保存