全文搜索引擎有那些、_软件运维

百度（Baidu）、谷歌（Google）就是典型的全文搜索引擎。它们都是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。

其他全文搜索引擎有：雅虎、有道、搜搜、搜狗、必应、即刻等。

从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序（Indexer），俗称“蜘蛛”（Spider）程序或“机器人”（Robot）程序，并自建网页数据库，搜索结果直接从自身的数据库中调用，如上面提到的baidu、google；另一种则是租用其他引擎的数据库，并按自定的格式排列搜索结果，如国外的Lycos引擎。

全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

Oracle Text 是一种功能强大的搜索技术它内置于 Oracle 数据库的所有版本(包括免费提供的快捷版 (XE))中它所提供的开发 API 使软件开发人员能够轻松实现功能齐备的内容搜索应用程序

Oracle Text 可用于搜索结构化和非结构化文档是对 SQL 通配符匹配的补充 Oracle Text 支持使用基本的布尔运算符(AND OR NOT NEAR 等)将多个搜索条目组合到一起此外它还具有更高级的功能如 soundex 和模糊搜索以及结果排序等该技术支持数百种文件类型包括 Microsoft Office 和 PDF Oracle Text 适合多种与搜索相关的使用情况和存储结构 Text 的应用领域包括电子商务文档和记录管理以及问题跟踪等可检索的文本可以结构化形式驻留在数据库中也可以非结构化形式驻留在本地文件系统中或 Web 上

Oracle Text 提供完整的基于 SQL 的搜索 API 该 API 包含自定义查询运算符 DDL 语法扩展一组 PL/SQL 过程和数据库视图通过 Text API 应用程序开发人员可完全控制索引查询安全演示以及有时会需要的软件配置在开发即需即用的非自定义软件时尤为如此通过即需即用的软件产品您希望使软件的配置尽可能简约即使这意味着要在产品开发中多做一些前期工作也是如此降低应用程序的复杂性通常会在产品生命周期的后期尤其是在支持维护和未来产品开发阶段中见到成效

Oracle Text 还支持文档级授权而文档级授权通常很难在统一的同时保持高性能借助 Text 组合了关系数据与非结构化数据的混和查询也得到了很好的支持对于授权这意味着您可以将全文搜索和授权合并到一个查询中独立结果集和获得最终结果所需的过滤阶段的数量可最大程度地缩减从而简化了应用程序的开发 Oracle Text 使应用程序开发人员从繁琐的开发中解脱出来可以集中精力进行性能优化

Oracle Text 也是编程语言不可知的并且也可以同样卓越的表现为 PHP 以及 Java 应用程序工作

前一段时间我需要提高企业内容管理 (ECM) 系统的搜索功能我首先对 Oracle Text 的使用进行了评估评估证明 Oracle Text 是一种构建应用程序搜索非常可行的技术它具有高级搜索功能支持大量不同的文件类型可高度自定义同时高度可伸缩原有搜索技术的一个缺点是您需要在数据库外部运行文件内容搜索然后运行数据库元数据搜索对结果进行授权最后合并独立的结果集使用 Oracle Text 所有这些 *** 作都可以在数据库中进行 ECM 系统已经使用 Oracle 数据库来存储元数据因为此项技术已经推出因此客户自然会选择使用而且它也不会给客户增加任何成本

在数据库中执行自由文本搜索查询的简单方法类似于

SELECT * FROM issues WHERE LOWER(author) LIKE %word % AND LOWER(author) LIKE %word %

使用这种方法每一列都需要与每个关键字单独进行匹配在每一列中可以任何顺序与关键字进行匹配然而关系数据库的设计使得它不会像上面那样有效地执行查询而且使用这种方法会产生极其不可伸缩的应用程序当然您可以设计自己的索引和搜索解决方案但是那样您可能不会优化使用您的资源在您已经为将搜索技术作为数据库的一部分付出了成本的情况下尤为如此

本文讨论 Oracle Text 在虚拟的问题跟踪应用程序中的使用在这个应用程序中用户可以创建一些包含元数据和可选附加文件的问题该应用程序利用 Oracle Text 实现元数据和可选附加文件内容的全文搜索功能

此处给出的示例已经在 Linux 的 Oracle 数据库 XE 上进行了测试这些示例应该同样也可在其他 Oracle 平台上运行良好

索引进程与搜索

Oracle Text 为可检索的数据项建立索引之后用户才能够通过搜索查找内容编制索引是确保搜索性能的常用方法 Oracle Text 的索引进程是根据管道建模的在这个管道中从数据存储检索来的数据项经过一系列转换之后其关键字会添加到索引中该索引进程分为多个阶段每个阶段都由一个单独的实体来处理并可由应用程序开发人员来配置

Oracle Text 具有适合不同用途的不同索引类型对于大型文档的全文搜索适合使用 CONTEXT 索引类型该索引进程包括以下几个阶段

数据检索只是将数据从数据存储(例如 Web 页面数据库大型对象或本地文件系统)中取出然后作为数据流传送到下一个阶段过滤过滤器负责将各种文件格式的数据转换为纯文本格式索引管道中的其他组件只能处理纯文本数据不能识别 Microsoft Word 或 Excel 等文件格式分段分段器添加关于原始数据项结构的元数据词法分析根据数据项的语言将字符流分为几个字词索引最后一个阶段将关键字添加到实际索引中

索引构建完成后应用程序即可通过普通的 SQL 查询执行最终用户输入的搜索

安装 Oracle Text

在默认情况下 Oracle Text 随 Oracle 数据库 XE 一起安装如何使用的是其他数据库版本您需要自己安装 Oracle Text 功能安装了此功能后您只需创建一个普通的数据库用户并赋予该用户 CTXAPP 角色这样用户即可执行特定的索引管理过程

CREATE USER ot IDENTIFIED BY ot GRANT connect resource ctxapp TO ot

文件索引

此处您要创建一个文本表用于为存储在问题跟踪系统中的附加文件内容建立索引附加文件存储在文件系统中除了应用程序的数据模型所需的列之外文本基表还包括一个绝对文件路径和一个格式列

CREATE TABLE files ( id NUMBER PRIMARY KEY issue_id NUMBER path VARCHAR( ) UNIQUE ot_format VARCHAR( ) )INSERT INTO files VALUES ( /tmp/oracletext/found txt NULL)INSERT INTO files VALUES ( /tmp/oracletext/found doc NULL)INSERT INTO files VALUES ( /tmp/oracletext/notfound txt IGNORE )

此处 ot_format 的值是 Oracle Text 在索引过程中解析出来的 NULL 值表明系统会为文件自动选择一个过滤器而如果值为 IGNORE 系统会跳过整个文件

可以使用以下语句创建文本索引

CREATE INDEX file_index ON files(path) INDEXTYPE IS ntext PARAMETERS ( datastore ctxsys file_datastore format column ot_format )

该语句将启动索引进程索引进程将通过存储在基表中的路径在文件系统中检索文件然后对内容进行过滤并建立索引这样便创建了一个区分大小写并具有精确匹配语义的 CONTEXT 索引该索引进程可以多种方式进行自定义例如支持前缀和后缀匹配

虽然大部分时间过滤阶段无需为每个文件指定文件格式即可很好地运行但是在基表中添加这一列可以对索引进程进行进一步控制例如使用格式列您可以跳过某些文件类型不为其建立索引当您只想正式支持应用程序中 Oracle Text 所支持的部分文件格式时这一列非常有用

Oracle Text 还可用于元数据的全文搜索在示例应用程序中有一个名为 issues 用于存储问题元数据的表该表的定义如下

CREATE TABLE issues ( id NUMBER summary VARCHAR( ) description CLOB author VARCHAR( ) ot_version VARCHAR( ) )

ot_version 列为索引列可用于强制为特定文档重新建立索引该表可使用测试数据填充

INSERT INTO issues VALUES ( Jane Text does not make tea Oracle Text is unable to make morning tea )INSERT INTO issues VALUES ( John It es in the wrong color I want to have Text in pink )

用户索引

Oracle Text 可为来自不同数据源的数据建立索引 Oracle Text 可用于问题跟踪系统提供对问题元数据的全文搜索在默认情况下您可为单个列中的值建立索引但是如果要合并多个表的数据您需要创建一个自定义的 PL/SQL 过滤器过程我将演示如何创建这样的过程这个过程将起到存储抽象的作用然后该索引进程将迭代文本表中所有的行为每一行调用过滤器过程过滤器过程将返回所有与问题相关的有待建立索引的文本

declare indexing procedure CREATE PACKAGE ot_search AS PROCEDURE issue_filter(rid IN ROWID tlob IN OUT NOCOPY CLOB)END ot_search/ define indexing procedure CREATE PACKAGE BODY ot_search AS PROCEDURE issue_filter(rid IN ROWID tlob IN OUT NOCOPY CLOB) IS BEGIN FOR c IN (SELECT author summary description FROM issues WHERE rowid = rid) LOOP dbms_lob writeappend(tlob LENGTH(c summary)+ c summary || )dbms_lob writeappend(tlob LENGTH(c author)+ c author || )dbms_lob writeappend(tlob LENGTH(c description) c description)END LOOPEND issue_filterEND ot_search/ define datastore preference for issues BEGIN ctx_ddl create_preference( issue_store user_datastore )ctx_ddl set_attribute( issue_store procedure ot_search issue_filter )ctx_ddl set_attribute( issue_store output_type CLOB )END/ index issues CREATE INDEX issue_index ON issues(ot_version) INDEXTYPE IS ntext PARAMETERS ( datastore issue_store )

搜索

CONTAINS 运算符用于搜索 CONTEXT 索引虽然 CONTAINS 运算符语法的确支持 soundex 匹配等更高级的功能但在这些示例中我们只用了简单的布尔运算符来合并关键字对于 Oracle Text 支持的语言模糊匹配和词根还原都是默认启用的要利用这些高级搜索功能只需将 fuzzy() 或 $ 查询运算符分别与 CONTAINS 运算符结合使用即可通配符字符可用于前缀和后缀匹配的 CONTAINS 查询下面是一些简单的查询示例

SELECT id FROM issues WHERE CONTAINS(ot_version color AND pink ) > SELECT id FROM issues WHERE CONTAINS(ot_version jane OR john ) >

索引维护

由于基表数据是由索引复制的因此这些数据需要定期与索引进行同步在 CTX_DDL PL/SQL 程序包中可以发现索引维护过程下面给出了一个示例显示如何更新索引以反映基表更改

EXECUTE ctx_ddl sync_index( issue_index M )

该同步过程为 *** 作提供了索引名称和使用的内存量也可以让数据库定期自动执行此项任务您也可以选择使用 *** 作系统或其他计划工具来启动同步例如在 Unix 系统上可安排以下 shell 脚本与 Cron 作业使系统按计划执行同步

#!/bin/sh export ORACLE_SID=orcl export ORAENV_ASK=NO source /usr/local/bin/oraenv sqlplus ot /ot @XE > synch log < WHENEVER SQLERROR EXIT EXECUTE ctx_ddl sync_index( issue_index M )EOF

CTX_DDL 程序包还包含其他有用的过程例如索引优化用于消除索引碎片和清除过期的数据

如果出现错误可通过 CTX_USER_INDEX_ERRORS 视图跟踪索引错误

数据库根据索引列更改跟踪文档的变更因此如果您希望强制 Oracle Text 重新为某些文档建立索引可以更新相应行的索引列如下所示

UPDATE files SET path=path WHERE id =

lishixinzhi/Article/program/Oracle/201311/18082

①首先要在三大网上中文期刊数据库中查找最新的期刊论文文献。中文科技期刊全文数据库和中国期刊网

②在清华库中有中国优秀博硕士学位论文全文数据库和中国重要会议论文全文数据库，也是撰写毕业论文的重要信息来源；

③三大中文数字图书馆（超星、方正、书生）是重要的文献信息来源；

④使用两大搜索引擎，可以帮助你扩大思考的范围，指引你找到新的文献信息资源

⑤如果找不到足够多的文献怎么办？可以采用“滚雪球法”进行查找，即利用已找到的文献后的参考文献扩大检索范围。清华库中的《中国期刊引文——全文链接记录库》也是帮助你实现“滚雪球查找”的有力工具；

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12047291.html

全文搜索引擎有那些、

发表评论

评论列表（0条）