如何实现涉及多个表的多个字段的全文检索功能（oracle）？_sql

oracle可以支持多个字段上的全文索引，但如果还涉及到多张表的话，就只能在每张表上建一个全文索引。但这样的话，查询时很不方便。而且如果涉及到的表或者字段发生变化，需要重新建全文索引，可扩展性不佳。

另一个思路是专门建立一张中间表，其中包括以下字段：表名，字段名，字段值，对象ID。在字段值这个字段上建立全文索引。然后定时的将原来四张表中须检索的字段同步到此中间表（可考虑用物化视图）。查询时，直接对此中间表进行查询即可。

举个例子：假设原表是文章表，其中有如下一条数据：

标题

内容

作者

德川家康为什么能统一日本？

请教一下，为什么最后是德川家康统一日本呢？

德川家康粉

现在需要检索在标题，内容或作者字段中存在“德川家康”的数据。

首先，需要将原数据同步到中间表，变成以下三条数据：

表名

字段名

字段值

对象ID

文章表

标题

德川家康为什么能统一日本？

文章表

内容

请教一下，为什么最后是德川家康统一日本呢？

文章表

作者

德川家康粉

通过在字段值这个字段上全文检索“德川家康”，可以筛选出以上三条数据。这三条数据都指向文章表中的ID＝1的文章。从文章表里取出这条数据，检索就成功结束了。

此方法的优点：一是检索的速度比较快；二是可以兼容指定表或指定字段的检索；三是需要检索的表或字段可以动态删减，可扩展性好。

主要的缺点一是需要一张中间表，并定时同步，消耗额外的服务器资源，二是同步的过程会造成延时，即新修改但尚未同步的数据会暂时检索不到。

这个比较简单，只需要把数据库数据，读取出来，然后使用lucene建立索引，最后使用lucene进行查询，即可完成全文检索。

问这个问题的一般还不太了解lucene，建议先去了解一些基础吧。

目前行业网站的全文检索的方式主要有两种

方式一:通过数据库自带的全文索引

方式二:通过程序来自建全文索引系统

以sql server 2005为例

2005本身就自带全文索引功能,你可以先对数据库表

建立索引,具体如何建索引网上搜索一下,建立完索引之后,你就可以用sql来实现检索功能,例如:select * from ytbxw where

contaiins(字段,' 中国')多个查询值之间可以用and 或

or来实现,在单表以及单表视图上建全文索引对2005来说根本不是问题,但在多表视图建全文索引2005目前还无法实现这个功能,拿

www.ytbxw.com为例,其每个栏目的信息都是分开存放的,所以在检索上就无法用该方法来解决这个问题.

下面重点说一下如何用程序来实现检索功能

如果你想自己开发一个全文检索系统,我想这是相当复杂事情,要想实现也不是那么容易的事情,所以在这里我推荐一套开源程序,那就是dotlucene,我想大家可能都听过这个东东吧,那我就讲讲如何来实现多表情况下的全文检索.

1、新建winform项目，把lucene.net.dll添加到该项目中来

2、创建一个类，类名可以自己取

public class indexer

{

private indexwriter writer

　／／在指定路径下创建索引文件

public indexer(string directory)

{

writer = new indexwriter(directory, new standardanalyzer(), true)

writer.setusecompoundfile(true)

}

　／／将信息添加到索引文件中

field.text:为索引＋读取

field.unindexed:不需要做索引

public void addhtmldocument(string path,string title,string content)

{

document doc = new document()

doc.add(field.text("text", content))

doc.add(field.unindexed("path", path))

doc.add(field.text("title", title))

writer.adddocument(doc)

}

／／解析html，过滤html代码

private string parsehtml(string html)

{

string temp = regex.replace(html, "<[^>]*>", "")

return temp.replace(" ", " ")

}

／／从页面中获取文章标题

private string gettitle(string html)

{

match m = regex.match(html, "<title>(.*)</title>")

if (m.groups.count == 2)

return m.groups[1].value

return "(unknown)"

}

//添加新闻到索引

public void addnews()

{

//从数据库获取记录（这部分略过）

for (int i = 1i <= pagesizei++)

{

rootid = int.parse(dr["classid"].tostring().substring(0, 2))

// 写入索引

addhtmldocument(http://www.ytbxw.com + dr["id"].tostring() + ".html",

dr["title"].tostring(), parsehtml(dr["content"].tostring()))

}/info/

}

／／关闭索引

public void close()

{

writer.optimize()

writer.close()

}

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9996258.html

如何实现涉及多个表的多个字段的全文检索功能（oracle）？

发表评论

评论列表（0条）