数据库检索的四种检索技术

数据库检索的四种检索技术,第1张

1. 布尔逻辑检索

利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种技术。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。

2. 截词检索

截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。这是就要用到截词检索

3. 位置检索

位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。

4. 字段限定检索

字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本字段和表达文献外部特征的辅助字段。

5. 加权检索

加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。

6. 聚类检索

聚类是把没有分类的事物,在不知道应分几类的情况下,根据事物彼此不同的内在属性,将属性相似的信息划分到同一类下面。

数据查询 是数据库 *** 作中最主要的功能之一;有时候数据库查询性能的好坏 直接关系到数据库的运行效率 关系到数据库的选型 下面笔者不谈大道理 只是对其中对一些平时大家容易忽略的查询小技巧做一些总结 或许大家可能正在为此犯愁呢

第一个技巧 利用连接符连接多个字段

如在员工基本信息表中 有员工姓名 员工职位 出身日期等等 如果现在视图中这三个字段显示在同一个字段中 并且中间有分割符 如我现在想显示的结果为 经理Victor出身于 年 月 日 这该如何处理呢其实 这是比较简单的 我们可以在Select查询语句中 利用连接符把这些字段连接起来

如可以这么写查询语句

SELECT员工职位 || ||员工姓名|| 出身于 ||出身日期 as 员工出身信息 FROM 员工基本信息表;

通过这条语句就可以实现如上的需求 也就是说 我们在平时查询中 可以利用||连接符把一些相关的字段连接起来 这在报表视图中非常的有用 如笔者以前在设计图书馆管理系统的时候 在书的基本信息处有图书的出版社 出版序列号等等内容 但是 有时会在打印报表的时候 需要把这些字段合并成一个字段打印 为此 就需要利用这个连接符把这些字段连接起来 而且 利用连接符还可以在字段中间加入一些说明性的文字 以方便大家阅读 如上面我在员工职位与员工姓名之间加入了空格;并且在员工姓名与出身日期之间加入了出身于几个注释性的文字 这些功能看起来比较小 但是却可以大大的提高内容的可读性 这也是我们在数据库设计过程中需要关注的一个内容

总之 令后采用连接符 可以提高我们报表的可读性于灵活性

第二个技巧 取消重复的行

如在人事管理系统中 有员工基本信息基本表 在这张表中 可能会有部门 职位 员工姓名 身份z件号码等字段 若查询这些内容 可能不会有重复的行 但是 我若想知道 在公司内部设置了哪些部门与职位的时候 并且这些部门与职位配置了相关人员 此时 又该如何查询呢

若我现在直接查询部门表 其可以知道系统中具体设置了哪些部门与职位 但是 很有可能这些部门或者职位由于人事变动的关系 现在已经没有人了 所以 这里查询出来的是所有的部门与职位信息 而不能够保证这个部门或者职位一定有职员存在 也就是说 这不能够满足于我们上面的要求

若我现在直接从员工信息表中查询 虽然可以保证所查询出来的部门与职位信息 一定有员工信息的存在 但是 此时查询出来的部门与职位信息会有重复的行 如采购部门分工合作 可能会有采购采购小组长 此时 在查询出来的部门与职位的信息中 就会有三条重复的记录

所以 以上两种处理方式 都不能够百分之百的满足企业用户的需求 此时 我们其实可以利用一个DISTINCT函数 来消除其中查询出来的重复行

如我们可以利用SELECT DISTINCT 部门信息 职位信息 FROM 员工基本信息表 通过这条加了DISTINCT约束的查询语句 不但可以查询出所有有员工的职位与部门信息 而且 会把重复的记录过滤掉 从而提高可阅读性

所以 在数据库设计过程中 特别是在查询语句的使用中 这个函数特别有用

第三个技巧 勤用WHERE语句

我们都知道 数据库查询效率高不高 是我们评价数据库设计好坏的一个重要标准 毋庸置疑 在数据库查询中勤用Where条件语句 是提高数据库查询性能的一个很重要的手段之一 特别是在设计到比较大的表中查询符合条件的记录过程中 利用WHERE条件语句加以限制 可以大幅度的提高查询的响应速度

如在图书馆管理系统中 现在有人想查询 注册会计师 辅导用书的时候 虽然不在书的类别或者名称中输入 注册会计师 先查询出全部的纪录 然后再一条条的看是否有相关的书籍信息 也是可行的 但是 这么处理的话 一方面系统响应的速度会非常的慢 因为里面记录很多 另一方面 查询的结果看起来也会非常的头疼

其实 我们只需要在查询中加入一些查询的参数 利用Where条件语句加以限制 则即可以提高数据库响应的速度 也可以找出最符合用户需求的数据

另外 我也接触过一些在Oracle数据库上设计的平台型管理软件 他们可以自定义相关的报表 在报表设计中 只要用户在前台设计平台中 选中 大表查询 的话 则这个平台会在生成报表的时候 自动应用Where条件语句 以提高前台系统从数据库查询数据的效率

所以 笔者认为在Oracle数据库系统设计中 要勤于使用Where语句 利用Where语句来提高数据库查询的效率

第四个技巧 灵活使用COUNT函数

在查询处理的时候 COUNT函数可以说是我们应用的比较多的函数之一 如我们有时候需要统计员工的人数 统计图书的种类数的时候 都需要使用到这个函数 不过 这个函数很多人可能会用 但是到灵活应用的地步 还是有一点差距

下面笔者就COUNT函数的一些应用技巧谈谈自己的心得

一是要灵活放置COUNT函数的位置 因为利用COUNT函数统计记录数的时候 是会考虑空行的记录的 如在数据表中一般有序列字段与其它的有意义字段两类 有时候可能序列字段中有内容而其它字段中没有内容 则在利用COUNT函数统计记录数量的时候 会把这个空记录也考虑进去 很明显 则就会发生统计的错误 所以 这个COUNT函数该放在哪个位置上 还是比较讲究的 一般的话 笔者试建议不要放在序列号字段上 而要放在一些关键的实体字段中 如统计员工人数的时候 则就可以放在员工姓名或者编号上等等

二是灵活跟其它函数搭配使用 如在上面的例子中 笔者谈到有时候用户需要知道现在有员工编制的部门与职位有哪一些 我们可以利用DISTINCT函数来找出具体的部门 但是 我现在只想知道有编制的部门与职位具体有多少 此时 我们也可以利用COUNT 与DISTINCT函数结合应用 找出我们所需要的数据 在COUNT函数中 可以指定ALL与DISTINCT选项 默认的情况下 是ALL选项 表示统计所有的行 其中也包括重复的行 而DISTINCT就表示只统计不重复的行 可见 COUNT函数跟其它函数搭配使用的话 可以简化我们的查询语句 提高查询效率

第五个技巧 只查询时必须的字段

有时候 用户不同的查询需求都要用到同一张表 如在员工信息表中包含了很多内容 有时候用户想要知道正式员工有多少;管理层员工有多少;生产线员工又有哪些;或者想知道合同即将到期的员工有哪些 为此 就遇到一个问题 因为这些内容基本上都是在同一张表中 那是在同一个视图中实现 而是根据需求不同 设计不同的视图呢

若单从技术上考虑 两这都是可以实现的 不会有多大的难度 但是 若是从数据库性能上考虑在 则还是采用不同的视图来实现不同的需求为好

一方面 若从安全方面讲 则可以根据不同的视图来控制相关的访问权限 可见 把视图细化 在权限控制上则会更加的灵活

lishixinzhi/Article/program/Oracle/201311/17049

现有的搜索引擎基本上分为三类:

11 single search engine(独立搜索引擎) 它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo。

12 Meta search engine(元搜索引擎) 它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数据库。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、0R、N0T等简单的语法 *** 作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。

13 Net search engine(网络搜索软件) 就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源。2 网络搜索引擎的工作原理及其基本构成

用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库。独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成

网络蜘蛛。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互连网上信息遍历的过程。为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。

索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。为了提高检索的效率,需要建立索引。索引一般为倒排档索引。

搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序。然后将分级排序后的结果显示给用户。

3 搜索引擎的主要性能评价指标

3.1 搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项。有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。Google、infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判别时的准确度。由于索引不同,在检索信息时产生的结果会不同。

3.2 搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息。这样不但提高了搜索引擎的质量,而且会得到用户的支持。

3.3 搜索引擎的检索效果 检索效果可以从响应时间、查全率、查准率和相关度方面来衡量。响应时间是用户输入检索式开始查询到检出结果的时间。查全率是指一次搜索结果中符合用户要求的数目与和用户查询相关的总数之比;查准率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比;相似度是指用户查询与搜索结果之间相似度的一种度量。虽然由于无法估计网络上与某个检索提问相关的所有信息数量。所以目前尚没有定量计算查全率的更好方法,但是它作为评价检索效果的指标还是值得保留。查准率也是一个复杂的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。总之,一个好的搜索引辇应该具有较快的响应速度和高的查全率和查准率,或者有极大的相似度。

3.4 搜索引擎的受欢迎程度 搜索引擎的受欢迎程度体现了用户对于搜索引擎的偏爱程度,知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。搜索引擎的受欢迎程度也会随着它的知名度和服务水平的变化而动态的变化。搜索引擎的服务水平和它所收集的信息量、信息的新鲜度和查询的精度相关。随着各种新的搜索技术的出现,智能化的、支持多媒体检索的搜索引擎将越来越受用户的欢迎。

另外,搜索引擎的信息占有量也可以作为评价搜索引擎性能的指标。综上所述,评价搜索引擎的性能指标可以概括为:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.检索功能(支持的检索技术,多媒体检索,内码处理等);C.查询效果(响应时间,查全率,查准率,相关度);d.受欢迎程度;e.信息占有量。4 搜索引擎检索信息的局限

2001年Roper的调查指出,36% 的互连网用户一个星期花超过2个小时的时间在网上搜索;71% 的用户在使用搜索引擎时遇到过麻烦;平均搜索12分钟以后发现搜索受挫。另一项由Keen所做的调查显示,31% 的人使用搜索引擎寻找答案,网上查找答案的半数以上都不成功。从这些调查数据中不难看出。目前的搜索引擎仍然存在不少的局限性。概括起来大致有以下几个方面。

4.1 搜索引擎对信息的标引深度不够 目前,搜索引擎检索的结果往往只提供一些线形的网址和包括关键词的网页信息,与人们对它的预期存在较大的距离,或者返回过多的无用信息,或者信息丢失,特别是对特定的文献数据库的检索显得无能为力。

4.2 搜索引擎的信息量占有不足 作为搜索引擎必须占有相当大的信息量才能具有一定的查全率和实用性。目前还没有一种覆盖整个因特网信息资源的搜索引擎。

4.3 搜索引擎的查准率不高 分析起来,这是因为:一方面由于网上信息数量巨大、内容庞大、良莠不齐,信息的质量得不到保障;另一方面是由于大多数搜索引擎的索引工作由程序自动完成,根据网页中词频及词的位置等因素确定关键词,有的网站为了提高点击率,将一些与网页主题并不相关的热门词汇以隐含方式放在页面上,并重复多次,从而造成查准率低。

4.4 检索功能单一,缺乏灵活性 目前许多搜索引擎的查询方法比较单一,一般只提供分类查询方式和关键词查询方式。不能从文献的多个方面对检索提问进行限制,只能就某一关键词或者概念进行笼统的检索。

4.5 搜索引擎自身的技术局限像目前部分搜索引擎还不能支持对多媒体信息的检索。造成上述信息检索困难的原因实质在于搜索引擎对要检索的信息仅仅采用机械的词语匹配来实现,缺乏知识处理能力和理解能力。也就是说搜索引擎无法处理用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。5 搜索引擎未来的发展趋势

新一代搜索引擎的发展目标就是采用新兴的搜索技术为用户提供更方便易用、更精确的搜索工具来满足用户的信息查询需要。技术上,应该在自然语言理解技术上有所突破,以XML可扩展标记语言为主,并使用向导技术。下面就搜索引擎的发展趋势谈几点看法。

<strong>答案补充</strong>

5.1 垂直化专业领域搜索 由于社会分工的加大,用户从事的职业有所不同,不同用户对信息搜索也往往有自己的专业要求。由于综合性的搜索引擎收录各方面、各学科、各行业的信息,因而搜索不相关的信息太多,专业垂直引擎则可以解决这个问题,垂直类搜索引擎是只面向某一特定的领域,专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。因此,基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。

5.2 智能化搜索 传统的搜索引擎使用方法是被动搜索,而准确的搜索应建立在对收录信息和搜索请求的理解之上。显然,基于自然语言理解技术的搜索引擎由于可以同用户使用自然语言交谈,并深刻理解用户的搜索请求,则查询的结果更

加准确。

5.3 关联式的综合搜索 所谓关联式综合搜索,是这样一种一站式的搜索服务,它使得用户在搜索时只需要输入一次查询目标,即可以在同一界面得到各种有关联的查询结果,这种服务的关键在于有一架构在XML基础上的整合资讯平台。<strong>答案补充</strong>

5.4 个性化搜索 提高搜索精确度的另一个途径是提供个性化的搜索,也就是将搜索建立在个性化的搜索环境之下,其核心是跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据来提高用户的搜索效率。

5.5 结构化搜索 所谓结构化搜索,是指充分利用XML等技术使信息结构化,同时使用查询结构化,从而使搜索的准确度大大提高。

5.6 本土化的搜索 世界上许多著名的搜索引擎都在美国,它们以英语为基础,完全按他们的思维方式和观点搜集和检索资料,这对于全球不同国家的用户来说是显然不合适的。各国的文化传统、思维方式和生活习惯不同,在对于网站的内容的搜索要求上也就存在差异。搜索结果要符合当地用户的要求,搜索引擎就必须本土化。

5.7 多媒体搜索。随着宽带技术的发展,未来的互联网是多媒体数据的时代,开发出可查询图像、声音、和**的搜索引擎是一个新的方向,这也将极大地满足用户的需求。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和更能够满足用户的信息查询需求。

1、当检索结果不满意——结果太多,应该缩小检索以便提高查准率,可采用下列方法来调整检索式: 增设限制条件至特定栏位及年代; 如:检索清朝,前面加入1662年-1723年。 增加检索名词的准确性——查阅工具如词表,字典, 分类表及字汇表。 增加检索策略的准确性——增加增加限制概念、增加概念组面使用逻辑“与”和逻辑“非”; 减少使用逻辑“或” ,排除无关概念;如:1、伦敦伦敦+英格兰 伦敦+安大略。 在检索结果中进行二次检索;如:输入手语改成输入聋人手语; 减少同义词与同族相关词;如:关键词中输入的标题、主题去掉其一。 使用字段限定,将索词限定在某个或某些字段范围,或者指定辅助字段,限制结果的文献类型、语种、出版国家;如: English in LA:要求检索的文献为英文文献。 提高检索提问式的专指度,增加或者换用下位词或专指性较强的自由词或者由字段级位置算符变为词级位置算符。 使用适当的位置算符;如:input(w)output可检出input output。 把检索词限定在主要字段,如标题字段、主题词字段等。 缩短检索年限,或限定某些刊物。如:指定《中国特殊教育》书刊上搜寻文章。

2、当检索结果不满意——结果太少,应该扩大检索以便提高查全率,可采取以下方法来调整检索式: 检查检索名词的拼写;如: 输入关键词原为特殊教育,输成特熟教育。 增加检索名词的普遍性——查阅工具如词表,字典, 分类表及字汇表。 扩大检索策略——减少使用逻辑“与”,丢掉一些次要的或者太专指的概念; 使用逻辑“或”连接同义词及相关词,或采用分类号检索,增加网罗度;如:华侨 OR 华人。 增加被检索的数据库——确定其他数据库是否覆盖你所要的主题;如:被检索的数据库由原先单一的CNKI到加入万方数据库等。 调整位置算符,由严变松,比如由词级位置算符变为字段级位置算符;如:例如 information(n)retrieval 可以检出 information retrieval 和 retrieval information 。 取消某些过严的限制符,如字段限制符、位置算符限制(或者改用限制程度较小的位置算符)。 在词干相同的单词后使用截词

计算机文献检索的基本方法与策略

计算机信息检索,实质上由计算机将输入的检索策略与系统中存贮的文献特征标识及其逻辑组配关系进行类比、匹配的过程。由于信息需求本身具有不确定性,加之对数据库中的文献特征标识不能充分了解,以及系统功能的某些限制,都会不同程度地影响检索效果。但是只要遵循一定的检索步骤,制定良好的检索策略,便可以减少各种不利因素的影响,尽可能地使检索提问标识与信息需求和检索系统保持良好的一致性,从而在系统中检索出满足用户需求的信。

1.检索步骤

(1)弄清信息需求,明确检索目的

信息需求是人们客观上或主观上对各种情报信息的一种需求。这种需求是人们索取情报信息的出发点,也是联机信息检索时选择数据库、确定检索策略以及评价检索效果的依据。不同类型的课题,其信息需求的范围和程度也不尽相同。例如,申请发明、申报成果奖励、鉴定及立项类的查新课题,往往需要全面地收集某一主题范围的文献信息,这类课题具有普查、追溯的特点,应着眼于查全;而对于科研、生产中为解决某一特定问题的攻关课题,往往只要求检出的信息对自己的研究有所帮助,而对查找的文献范围不需要很广。因此,这类课题则要求查准。

如何对信息需求进行正确的分析呢?不妨从信息需求的形式和内容两方面来分析。有关信息的形式需求要明确的问题有:

①明确检索目的。检索是为了申报成果,还是为了了解学科的最新进展等等,据此以制定出符合查全或查准要求的检索策略。

②明确所需的文献量。规定所需文献数量的上限,对以后确定检索策略和控制检索费用是一个很重要的参数;同时还需对检索课题可能有的相关文献量做出估计。

③明确所需文献的语种、年代范围、类型、作者或其他外表特征,这对限定检索范围也很重要。

关于信息的内容需求要明确的主要问题有:

①明确检索课题内容涉及的主要学科范围,这对以后选择合适的数据库很重要。

②分析检索课题的主要内容,用自然语言来表达这些内容要求,这是联机检索中较为重要的环节。

(2)选择数据库,确定检索途径

分析了信息需求后,可根据已知的条件来选择合适的数据库,这一步隐含了检索系统的选择。如欲检索国外专利文献,则可以检索国内的BDSIRS系统的GWZL库。但其提供的检索途径及报道最新专利文献方面不及美国的DIALOG系统的WPI库,当检索要求较高时,仍常选用美国的DIALOG系统。

选择数据库时,首先应了解:

①数据库收录的信息所涉及的学科领域;

②收录的文献类型,最好能进一步了解文献的主要来源;

③收录的时间范围;

④数据库的基本索引及辅助索引,它们提供的检索途径及检索标识的特点;

⑤数据库的检索费用,包括机时费和每篇记录的打印费。

数据库选定之后,其提供的检索途径也随之确定,并可根据已知的条件来确定某一个或几个检索途径。由于计算机存贮容量大和运算速度快,又对比较多的字段建立了索引,它不仅可以从手检中常用的主题词、分类号及作者等途径检索,而且可以从篇名、文摘的自由词、文献类型、期刊名称等途径进行检索,并且还能利用各种途径的组配进行交叉检索,这些都是手工检索所不及的。

(3)确定课题的概念组面和检索标识

弄清信息需求,了解了检索课题的主要内容后,确定其概念组面和检索标识是重要的一步。当检索课题包含较复杂的主题内容时,应明确组成课题内容的几个概念组面,并通过一定的逻辑组配形成一定的复合概念或概念关系来表达用户的信息需求。

确定了课题的概念组面,还须将概念组面转换成相应的为系统所识别的检索标识,检索标识的表示应符合两方面的要求,一是切题性,即检索标识反映信息需求;二是匹配性,即检索标识和检索系统的存贮特征标识相一致。

检索标识一般有如下三种形式:

①规范词: 从待检数据库的叙词表或主题词表中选取规范化的词或词组,因为词表是数据库标引和检索必须共同遵循使用的检索语言。为了使检索提问标识与文献特征标识相一致,获得最佳的检索效果,应优先选用规范词。

②规范化的代码: 索引代码是数据库系统为某些主题范畴或主题概念规定的索引单元。这类单元有很好的专指性,是一种有较好检索效果的文献特征标识。如国际专利分类号IC=,PTS数据库的产品代码PC=,标准工业代码SC=等等。

③自由词:使用自由词检索能够充分利用系统的全文查找功能。规范词或代码的选择需利用词表或分类表等进行自然语言到规范语言的转换,而标引人员和检索人员的思路不一致时也会影响检索效果。此时,用自由词在篇名、文摘甚至全文中查找显露出一定优越性,自由词直接、简明是科技人员易为接受、较为常用的一种方法。

④拟定检索提问式,确定具体的查找程序

检索提问式,是指计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符号组成。从某种意义上讲,检索式是检索策略的具体体现,它的质量好坏,将关系到检索策略的成败。

检索标识确定后,接下来就是用一定的组配关系把各个检索标识联接起来组成检索提问式,并表达各种复杂的概念关系,以准确地表达信息需求。要注意各种逻辑运算符、位置算符、截词符等的使用方法,如位置算符的松紧程度及先后次序,还要考虑各个检索项的限定要求及输入的次序,以及根据反馈信息对检索式进行调整等,参见检索策略部分。

2.检索策略

(1)检索策略的概念

所谓检索策略,就是在分析课题内容具有哪些概念单元的基础上,确定检索系统、检索文档、检索途径和检索词,并科学安排各检索词之间的位置关系和逻辑关系以及查找步骤等。检索策略考虑得是否周全,直接影响文献的查全率和查准率。

(2)制定检索策略的步骤

制定检索策略的前提条件是明确数据库及整个检索系统的基本性能。不同数据库收藏内容、标引方法和检索方法是不同的,不同检索系统配备不同的技术性能和 *** 作符。在制定检索策略之前对数据库有几条检索途径,这些途径的标引所遵循的规则都必须有比较清醒的认识。如果在提问式中列出系统没有的检索点,是不可能检出文献的。

(3)制定检索策略的基础是弄清检索课题的内容要求和检索目的。在这一基础上,才能对检索课题进行概念分析,如果课题属单一概念就用单个检索词表达,若课题概念复杂,就把复杂概念分解为若于个概念单元,再用逻辑运算符把表达概念单元的检索词组配起来。将概念单元转换为检索词时,应尽量选用规范化词。检索新课题、边缘学科或是比较含糊的概念时,应特别小心,因为这些词往往没有收入系统,这里应从专业范畴出发选用本学科内具有检索意义的关键词即自由词,不然就会带来误检或漏检。

(4)检索策略构成的关键是正确地选词和配备逻辑符。

(5)调整检索策略。在计算机中检索中,常常会出现文献资料过少甚至为零,或文献资料过多的情况。作为检索人员,应与用户进行分析,及时调整检索策略,以使检索达到令人满意的效果。文献资源过多或过少,均可通过增加检索项,运用布尔逻辑的组配,以增加或缩小检索范围,达到减少或增加命中文献的目的。通常来说,逻辑与总是缩小检索范围,达到查准的目的;逻辑或总是扩大检索范围,达到查全的目的。而逻辑非总是排它检索,缩小检索范围,达到查准的目的。

3.检索效率

检索效率就是利用检索系统(或工具)开展检索服务时产生的有效结果。它直接反映检索系统的性能,影响系统在信息市场上的竞争能力和用户的利益。检索效率包括技术效果和社会经济效果两个方面。技术效果主要指系统的性能和服务质量,系统在满足用户的信息需要时所达到的程度。社会经济效果是指系统怎样经济有效地满足用户需要,使用户或系统本身获得一定的社会效益和经济效益。我们以下讨论的主要是系统技术效果的评价问题。

在检索中最理想的是查全率和查准率都达到100%,就是数据库中收录的全部相关文献都被检索出来,而且检索出来的文献全部都是相关文献。但事实上,检索中有许多因素使这个指标很难达到,总存在一定的误差。那么就出现了两个评价误差的指标漏检率和误检率。

在评价工作中,最常用的是查全率和查准率,而且应同时使用,否则就难以反映检索系统的功能及检索结果的效率。查准率和查全率结合起来,描述了系统的检索成功率、查全率和查准率之间有着互逆的关系,就是说查全率提高,查准率就下降,反之亦然。在计算机检索中,一般认为查准率为60—70%、查全率为40—60%是较为理想的。

系统的收录范围、索引语言、标引和检索等都是影响查全率和查准率的因素,这里就不再一一细讲。

4.提高检索效率的措施

(1)提高文献库的编辑质量,使它的收录范围更全面、更切合相应学科或专业的需要,著录内容更详细准确。

(2)提高标引质量,标引前后要一致,用词要恰当,组配要合理,努力做到:正确揭示主题一不错标;全面反映主题一不漏标;简练地使用标识一不滥标。

(3)提高索引语言的专指性和词表质量。加强对索引词汇的控制,完善词表的结构及其参照关系,使索引语言既有利于族性索引,又有利于特性检索。词表结构要完善,词与词之间关系正确,正确控制同义词和多义词,及时反映新学科新技术的术语等。

(4)提高检索人员的工作水平和能力,了解数据库收集的内容和加深对词表结构的理解,正确做出主题分析,选择合适的检索文档,选择恰当的检索词表达查找主题内容,进行恰当的逻辑组配,找出最佳检索途径,从而制定出最优的检索策略。

(5)调整查全率和查准率。

在实际的检索中可合理地调节查全率和查准率,根据不同的检索要求,使检索的结果最大限度地满足检索的要求。在实际检索中,有时对查全率要求很高,希望不遗漏任何一篇有关的文献,而查准率低一点也行;而有时只需测览一些新的重要文章,不全部要,这里就要求较高的查准率,查全率低一点也行。总之,在检索时要合理地调节查全率和查准率,从而达到最佳的检索效果。

以上就是关于数据库检索的四种检索技术全部的内容,包括:数据库检索的四种检索技术、Oracle进行数据库查询的小技巧、搜索引擎通常具备哪些基本的检索功能等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9716326.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存