信息检索的一些概念,急求!!!!

信息检索的一些概念,急求!!!!,第1张

1

信息检索(information retrieval):是指将信息接一定的方式组织和贮存起来,并根据信息用户的需要找出有关信息的过程。所以,它的全称又叫信息存贮与检索(information storage and retrieval),这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即根据课题的需要,主要借助于检索工具,从信息集合中找出所需信息的过程,相当于人们所说的信息查寻(information search)。信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。

2

当你拿到一本书就会在封底或版权页看到由“ISBN”(国际标准书

号)和10位数字为标志组成的字样,其格式为:ISBN7-5004-1693-

8/I·200,它的含义是:ISBN组号-出版者号-书名号-校验号/图书

分类号·种次号。组号代表一个地区或地理区域、国家或集团的编号,

中国的编号是“7”;出版者号代表出版社的编号;书名号是出版社出

版的一种特定出版物的名称;校验号校验ISBN编号是否合法。中国加入

ISBN系统之后制定了相应的国家标准-中国标准书号,并于1987年1月

实施。

如此繁复的代号和数字组合有什么作用呢?其一,帮你了解图书的

出版规模。ISBN由十位数字组成,其中校验号恒定为一位数,组号可取

1-5位数。如果一个国家或地区的组号是五位数,其中出版者号与书名

号位数之和就是四位数,通过排列组合,这个国家或地区的出版量最多

只是一万种;而组号如果是一位数,那么其中出版号与书名号位数之和

就是八位数,其出版量将高达一亿种,组号的位数越大出版量越小,组

号的位数越小出版量越大。我国的组号是〃7〃,可见其出版量之大。

其二,帮你了解出版者。首先,可以了解出版者的出版规模和目前

的图书出版数量。ISBN的出版者号与书名号的位数之和恒等于八。目前

,我国出版者可取代码2至5位数,如果出版者号是三位,书名号就是五

位数,则出版量就是十万种,出版者号的位数越小,书名号的位数越大

,出版量也越多,反之出版量越少。例如:商务印书馆1996年7月出版

的《现代汉语词典》修订第三版,中国标准书号为ISBN7-100-01777

-7/H519。“100”是商务印书馆的代码,“01777”是书名号,表示

商务可出版10万种图书,至1996年7月已出版了1778种(出版者所出版

的第一种图书书名号从0计算)。另外,可以了解出版者是综合性的还

是专业性的。ISBN的书名号与种次号分别代表的是可以出版多少种图书

,已经出版了多少种和某一类目出版了多少种。例如,人民文学出版社

的《当今十大奇案》,中国标准书号是ISBN7-02-000420-2/I·421

其书名号与种次号相等,说明人民文学出版社是专业性的出版社,它以

出版文学类的图书为主。

其三,方便了图书馆工作人员。由于ISBN具有世界唯一性,所以通

过ISBN检索的准确性要高于通过书名检索的准确性。书名有重名现象,

比如茅盾有长篇小说《虹》,而英国的劳伦斯也有长篇小说《虹》。通

过ISBN检索具有唯一性,检索的速度也要高于通过书名检索的速度。书

名少则几个字,多则十几个字,而ISBN只有十个阿拉伯数字,一般的工

作人员都能够录入且速度要比录入书名的速度快得多。

总之,中国标准书号的最大特点是将国际标准书号(ISBN)和全国

统一书号中的分类号和种次号的成份结合起来,结构简单层次性强,便

于计算机处理和检索,给出版、发行、订购、统计、分编等提供很大的

方便,是读者进入图书馆查阅图书的一个重要检索点。

3

计 算 机 检 索 系 统 的 构 成

计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。

一、计算机硬件

计算机硬件是系统采用的各种硬设备的总称,主要包括具有一定性能的主计算机、外围设备以及与数据处理或数据传送有关的其他设备。

二、软件

软件由系统维护软件与检索软件构成。系统维护软件,如数据库管理程序、词表管理程序等,其作用是保障检索系统的高效运转。检索软件是用户与系统的界面,用户通过检索软件进行检索,检索软件功能的强弱直接影响着检索效果。检索软件可以分为指令式、菜单式和智能接口等。

三、数据库

根据ISO/DIS 5127标准,数据定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。

按国际上通用的分类方法,数据库可以划分为以下类型:

1 参考数据库

参考数据库(Reference databases)是指引用户到另一信息源以获得原文或其他细节的一类数据库。它包括书目数据库(Bibliographic databases)和指南数据库(Referral database或Directory database)两种。

书目数据库是指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库,有时又称为二次文献数据库,或简称为文献数据库。如中国机械工程文摘数据库,属于此类型数据库。

指南数据库也称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户从其他有关信息源获取更详细的信息的一类数据库。如产品目录、机构名录、研发项目、基金项目等数据库均属于此类型。

2 源数据库

源数据库(Source databases)是指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源。它可以分为:

(1)数值数据库这是一种专门提供以数值方式表示的数据的源数据库,如统计数据库、财务数据库等。

(2)文本-数值数据库这是一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品数据库等。

(3)全文数据库这是一种存储文献全文或其中主要部分的源数据库,如法律法规全文库、期刊全文库等。

(4)术语数据库这是一种专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的源数据库,如名词术语信息库、各种电子化辞书等。

(5)图像数据库这是一种用来存储各种图像或图形信息及有关文字说明资料的源数据库,主要应用于建筑、设计、广告、产品、或照片等资料类型的计算机存储与检索。

除上述几种类型的数据库外,还有能同时存储多种不同类型数据的数据库,即混合型数据库。另外,按其载体不同又可分成磁媒体数据库、光盘数据库和多媒体数据库等。

四、通讯网络

由于现代通信技术的发展,公共数据传输技术为信息的传递提供了保障,信息检索逐渐发展成为网络检索,通过数据传输网将各个计算机连接起来。每个计算机成为网络中的一个节点,每个节点可含一个或多个数据库,网络上的每个节点和其终端只要有授权均可对网络中的数据库进行访问,实现资源共享。随着空间技术的发展,信息检索已进入了信息传递-卫星通讯-计算机技术三位一体的新阶段。

4

《中国图书馆分类法》有22大类:A 马克思主义、列宁主义、毛泽东思想、邓小平理论,B 哲学、宗教,C 社会科学总论,D 政治、法律,E 军事,F 经济,G 文化、科学、教育、体育,H 语言、文字,I 文学,J 艺术,K 历史、地理,N 自然科学总论,O 数理科学和化学,P 天文学、地球科学,Q 生物科学,R 医药、卫生,S 农业科学,T 工业技术,U 交通运输,V 航空、航天,X 环境科学、安全科学,Z 综合性图书。

详细类目可查阅图书馆主页《中国图书馆分类法》。

体育有:G 文化、科学、教育、体育

5

1是否支持全文检索

2检索结果如何排序,相关性,时间等,是否全面

3检索功能是否全面,如布尔逻辑检索、关键词检索、位置检索、截词检索、限制检索等等

4查询速度如何,维护更新如何

5界面是否简单易用,易用性是否强

建议你找本关于《信息检索》的书来看看,我说的特别简单,手头没有书,你要是想具体看看,还得看书。人大出版社的那本信息检索不错。

6

根据文献的有关信息查找相应的馆藏目录或联合目录,找到收藏单位,再索取或复制原文。如果本单位图书馆没有收藏所需文献,用户可以通过馆际互借或文献传递服务获取。

7

学术性图书馆当然以国家图书馆最权威,各高校图书馆都收藏有相应的学术资源,可通过中国高校文献保障系统(Calis)来查重要高校的馆藏和信息服务情况。

图像检索算法因何而起?

网络时代,随着各种社交网络的兴起,网络中,视频数据每天都以惊人的速度增长,逐渐形成强大的图像检索数据库。针对这些具有丰富信息的海量,如何有效地从巨大的图像数据库中检索出用户需要的,成为信息检索领域研究者感兴趣的一个研究方向。

图像检索,简单的说,便是从检索数据库中检索出满足条件的,图像检索技术的研究根据描述图像内容方式的不同可以分为两类:

一类是基于文本的图像检索技术,简称TBIR,

一类为基于内容的图像检索技术,简称CBIR。

随着图像检索技术的发展和逐渐成熟,已经形成了多个基于图像检索的研究方向和应用场景,并且投入实用,在遥感影像、安防监控、检索引擎、电子商务、医学等方方面面起着十分重要的作用。

基于文本的图像检索(TBIR)技术,其主要原理为利用文本描述,如文本描述的内容、作者等等的方式来检索;

基于图像的内容语义的图像检索技术(CBIR),利用的颜色、纹理及包含的物体、类别等信息检索,如给定检索目标,在图像检索数据库中检索出与它相似的。

基于图像的内容语义的图像检索包括相同物体图像检索和相同类别图像检索,检索任务分别为检索同一个物体地不同和检索同一个类别地。例如,行人检索中检索的是同一个人即同一个身份在不同场景不同摄像头下拍得的属于相同物体的图像检索,而在3D形状检索中则是检索属于同一类的物品,如飞机等。

图像检索技术主要包含几个步骤,分别为:输入、特征提取、度量学习、重排序。

特征提取:即将数据进行降维,提取数据的判别性信息,一般将一张降维为一个向量;

度量学习:一般利用度量函数,计算特征之间的距离,作为loss,训练特征提取网络,使得相似提取的特征相似,不同类的提取的特征差异性较大。

重排序:利用数据间的流形关系,对度量结果进行重新排序,从而得到更好的检索结果。

随着深度学习的引入,基于深度学习的图像检索技术,主要是将深度学习方法应用在图像检索中的特征提取模块,利用卷积神经网络提取特征。主要步骤即给定一张,通过卷积神经网络对进行特征提取得到表征的特征,利用度量学习方法如欧式距离对特征进行计算距离,对距离进行排序,得到初级检索结果,再根据数据的上下文信息和流形结构对图像检索结果进行重排序,从而提高图像检索准确率,得到最终的检索结果。

搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。

索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。

检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

以上就是关于信息检索的一些概念,急求!!!!全部的内容,包括:信息检索的一些概念,急求!!!!、计算机视觉应用之图像检索任务简单介绍、信息检索与搜索引擎关系等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9311636.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存