另一个思路是专门建立一张中间表,其中包括以下字段:表名,字段名,字段值,对象ID。在字段值这个字段上建立全文索引。然后定时的将原来四张表中须检索的字段同步到此中间表(可考虑用物化视图)。查询时,直接对此中间表进行查询即可。
举个例子:假设原表是文章表,其中有如下一条数据:
ID
标题
内容
作者
1
德川家康为什么能统一日本?
请教一下,为什么最后是德川家康统一日本呢?
德川家康粉
现在需要检索在标题,内容或作者字段中存在“德川家康”的数据。
首先,需要将原数据同步到中间表,变成以下三条数据:
表名
字段名
字段值
对象ID
文章表
标题
德川家康为什么能统一日本?
1
文章表
内容
请教一下,为什么最后是德川家康统一日本呢?
1
文章表
作者
德川家康粉
1
通过在字段值这个字段上全文检索“德川家康”,可以筛选出以上三条数据。这三条数据都指向文章表中的ID=1的文章。从文章表里取出这条数据,检索就成功结束了。
此方法的优点:一是检索的速度比较快;二是可以兼容指定表或指定字段的检索;三是需要检索的表或字段可以动态删减,可扩展性好。
主要的缺点一是需要一张中间表,并定时同步,消耗额外的服务器资源,二是同步的过程会造成延时,即新修改但尚未同步的数据会暂时检索不到。
这个比较简单,只需要把数据库数据,读取出来,然后使用lucene建立索引,最后使用lucene进行查询, 即可完成全文检索。问这个问题的一般还不太了解lucene,建议先去了解一些基础吧。
目前行业网站的全文检索的方式主要有两种方式一:通过数据库自带的全文索引
方式二:通过程序来自建全文索引系统
以sql server 2005为例
2005本身就自带全文索引功能,你可以先对数据库表
建立索引,具体如何建索引网上搜索一下,建立完索引之后,你就可以用sql来实现检索功能,例如:select * from ytbxw where
contaiins(字段,' 中国')多个查询值之间可以用and 或
or来实现,在单表以及单表视图上建全文索引对2005来说根本不是问题,但在多表视图建全文索引2005目前还无法实现这个功能,拿
www.ytbxw.com为例,其每个栏目的信息都是分开存放的,所以在检索上就无法用该方法来解决这个问题.
下面重点说一下如何用程序来实现检索功能
如果你想自己开发一个全文检索系统,我想这是相当复杂事情,要想实现也不是那么容易的事情,所以在这里我推荐一套开源程序,那就是dotlucene,我想大家可能都听过这个东东吧,那我就讲讲如何来实现多表情况下的全文检索.
1、新建winform项目,把lucene.net.dll添加到该项目中来
2、创建一个类,类名可以自己取
public class indexer
{
private indexwriter writer
//在指定路径下创建索引文件
public indexer(string directory)
{
writer = new indexwriter(directory, new standardanalyzer(), true)
writer.setusecompoundfile(true)
}
//将信息添加到索引文件中
/*
field.text:为索引+读取
field.unindexed:不需要做索引
*/
public void addhtmldocument(string path,string title,string content)
{
document doc = new document()
doc.add(field.text("text", content))
doc.add(field.unindexed("path", path))
doc.add(field.text("title", title))
writer.adddocument(doc)
}
//解析html,过滤html代码
private string parsehtml(string html)
{
string temp = regex.replace(html, "<[^>]*>", "")
return temp.replace(" ", " ")
}
//从页面中获取文章标题
private string gettitle(string html)
{
match m = regex.match(html, "<title>(.*)</title>")
if (m.groups.count == 2)
return m.groups[1].value
return "(unknown)"
}
//添加新闻到索引
public void addnews()
{
//从数据库获取记录(这部分略过)
for (int i = 1i <= pagesizei++)
{
rootid = int.parse(dr["classid"].tostring().substring(0, 2))
// 写入索引
addhtmldocument(http://www.ytbxw.com + dr["id"].tostring() + ".html",
dr["title"].tostring(), parsehtml(dr["content"].tostring()))
}/info/
}
//关闭索引
public void close()
{
writer.optimize()
writer.close()
}
}
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)