搜索引擎在网络信息检索的地位及作用_搜索引擎与信息检索的关系

搜索引擎在网络信息检索的地位及作用_搜索引擎与信息检索的关系,第1张

信息检索不等于搜索引擎。

互联网的发展明显地促进了信息检索技术的发展和应用,一大批搜索引擎产品诞生,为网民提供了很好的快速信息获取和网络信息导航工具,但是将信息检索等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索技术,但互联网信息搜索和企业信息搜索是不同的。

一是数据量。传统信息检索系统一般索引库规模多在GB级,但互联网网页搜索需要处理几千万上亿的网页,搜索引擎的基本策略都是采用检索服务器群集,对大多数企业应用是不合适和不必要的,并不适用于企业应用。

二是内容相关性。信息太多,查准和排序就特别重要,Google等搜索引擎发展了网页链接分析技术,根据互联网上网页被连接次数作为重要性评判的依据。但企业网站内部的网页链接由网站内容采编发布系统决定,其链接次数存在偶然因素,不能作为判别重要性的依据。真正的企业应用的检索要求基于内容的相关性排序,就是说,和检索要求最相关的信息排在检索结果的前面,链接分析技术此种排序基本不起作用。

三是实时性。搜索引擎的索引生成和检索服务是分开的,周期性更新和同步数据,大的搜索引擎的更新周期需要以周乃至月度量;而企业信息检索需要实时反映内外信息变化,搜索引擎系统机制并不能适应企业中动态性数据增长和修改的要求。

四是安全性。互联网搜索引擎都基于文件系统,但企业应用中内容一般均会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。

五是个性化和智能化。由于搜索引擎数据和客户规模的限制,相关反馈、知识检索、知识挖掘等计算密集的智能技术很难应用,而专门针对企业的信息检索应用能在智能化和个性走得更远。

(),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。

目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。

信息检索技术的热点

◆智能检索或知识检索

传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。

◆知识挖掘

目前主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。

自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。

◆异构信息整合检索和全息检索

在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。

另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。

随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。

信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。

随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一。

搜索引擎工作流程

互联网是一个宝库,搜索引擎是打开宝库的一把钥匙。然而,绝大多数网民在搜索引擎的相关知识及使用技巧上能力不足。国外的一次调查结果显示,约有71%的人对搜索的结果感到不同程度的失望。作为互联网的第二大服务,这种状况应该改变。

互联网的迅速发展,导致了网上信息的爆炸性增长。全球目前的网页超过20亿,每天新增加730万网页。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。搜索引擎正是为了解决这个“迷航”问题而出现的技术。

搜索引擎的工作包括如下三个过程:

1在互联中发现、搜集网页信息;

2对信息进行提取和组织建立索引库;

3再由检索器根据用户输入的查询关字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

发现、搜集网页信息

需要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜索引擎技术公司可能不尽相同,但目的都是快速浏览Web页和后续过程相配合。目前国内的搜索引擎技术公司中,比如百度公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并把所获得的信息保存下来以备建立索引库和用户检索。

索引库的建立

关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。新浪搜索引擎对网站数据建立索引的过程中采取了按照关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。

小角X射线衍射和小角X射线散射有什么区别?

X射线与样品的作用产生散射,要看射线与格子 之间的相互作用是否相干,相干的就产生衍射,不相干就不能产生衍射、就只能是散射。小角X射线衍射和小角X射线散射不是一个概念!

小角X射线衍射缩写是SAXD,小角X射线散射的缩写是SAXS,二者的原理还是有很大的区别。衍射对应的是周期性结构如晶格与X射线相互作用引起的相干衍射现象,而散射对应的是X射线电子在透射样品前后电子密度的变化。

小角X射线散射(SAXS)

SAXS是一种用于测定纳米尺度范围的固体和流体材料结构的技术。它探测的是长度尺度在典型的1-100纳米范围内的电子密度的不均匀性,从而给XRD(WAXS,广角X射线散射)数据提供补充的结构信息。它可应用于结晶和非晶之类的材料。

测量通常用透射几何,使用窄的、良好准直的并且高强度的X射线束。典型的散射角度范围为01到5度。能够达到的最小角度决定了最大的特征分辨尺寸。样品的制备很简单,可以放在毛细管中、作为两个聚合物箔之间的薄层或者不用样品架进行测量。

一些典型的应用包括纳米颗粒和孔隙的尺寸分布、比表面积和不均匀(如核壳)粒子中的结构分析等的测定。该技术还能给出有关纳米颗粒聚集行为的信息。此外,SAXS还应用于胶体、膜 、液晶、清洁剂、微乳液、聚合物等的结构分析。在所有颗粒基本上具有相同尺寸的情况下,有可能测定它们的形状和内部结构。作为例子,SAXS可用于分析蛋白质的包络形状和稀释溶液中的其它生物大分子。

当X射线照射到试样上时,如果试样内部存在纳米尺度的电子密度不均匀区,则会在入射光束周围的小角度范围内出现散射X射线,这种现象称为X射线小角散射或小角X射线散射(X-ray Scattering Small Angle ),简写为SAXS 。其物理实质在于散射体和周围介质的电子云密度的差异。SAXS已成为研究纳米亚微米级固态或液态结构的有力工具。

在一台实验室设备上的测量时间可以从几分钟到几个小时。测量时间依赖于所用的仪器类型和光学系统,也依赖于样品的浓度和电子密度对比度。 抽真空的射线束路径有助于减小空气散射的影响并加快测量。然而,即使在一台在空气中的多用途衍射仪上,对大多数的样品也常能得到高质量的SAXS数据。

X射线物相分析

X射线照射晶产生一套特定的粉末衍射图谱或数据d-I值。其中d与晶胞形状和大小有关,相对强度I/I1,与质点的种类和位置有关。与人的指纹相似,每种晶体物相都有自己独特的XRD谱。不同物相物质即使混在一起,它们各自的特征衍射信息也会同时出现,互不干扰。据此可以把任何纯净的或混合的晶体样品进行定性或定量分析。把你得到的d值-峰强值I作为一套数据,去查找PDF卡片。

X射线物相定性分析

粉末X射线物相定性分析无须知晓物质晶体的晶格常数和晶体结构,只须把实测d-I/I1数据与JCPDS(粉未衍射标准联合会)发行的PDF(1992年以后称为ICDD国际衍射数据中心International Center for Diffraction Data)卡片上的标准值核对,就可进行鉴定。当然这是对那些被测试研究收集到卡片集中的晶相物质而言的。卡片记载的解析结果都可引用。

粉末衍射卡片

《粉末衍射卡片集》(Powder Diffraction Files,简称 PDF卡片)是目前收集最丰富的多晶衍射数据集。

PDF-4是一个新式的关系数据库,分为32种类别分别存贮矿物、有机物、有机物和合金等的衍射数据、分子式、d值、空间群、密度、颜色、熔点、原子和原子间距等等数据。每类再分为许多子类。还包括许多软件功能,根据点击进行数据链接或转换衍生,如可以从单晶结构数据拟合处多晶衍射谱;基于仪器构造参数(如狭缝结构、单色器种类等),可将实验测得的d、I数据转变为数字化的衍射谱,应用于物相定性鉴定分析。每个PDF卡记录一个物相。

你查到和你的样品相似或相近的PDF卡片,那卡片上记录的晶相数据就都可以参考了。

如果没有标准PDF卡片,自己从头开始晶相分析,程序要复杂得多!

数据库系统工程师考试大纲

视频资料:清华《数据库系统及应用》、《数据库系统概论》、《工程数据库设计与应用》、《数据结构》、《软件工程》北理《数据库工具》、《新概念SQL SERVER 2000视频教学》、《 *** 作系统》、《Jav

a语言》、《Oracle9i视频教学》

图书资料:《数据仓库》、《SQL21自学通pdf》、《UML全面阐述chm》、《UML参考手册pdf》、《统一软件开发过le9i数据库管理实务讲座pdf》、《Oracle 管理员手册pdf》、《Oracle9iASPortalbd》、《ORACLE_8_UML对象建模设计》、《ORACLE_8I数据库管理员手册》、《ORACLE_8-8I开发使用手册》、《Oracle 8i PL_SQL高级程序设计》、《SQL SERVER 2000 编程人员指南》、《SQL_SERVER_7关系数据库系统管理与开发》、《SQL_SERVER_7资源指南》、《MYSQL网络数据库指南》、《软件工程思想》、《C#完全手册pdf》、《java编程思想(2)中文版 pdf》、《MICROSOFT ODBC 30 程序员参考及SDK指南》、《access2000编程指南》,《jdbc编程》等等

没有直接关系。

icsd数据库是无机晶体学数据库,pdf是粉末衍射数据库,是建立在关系模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据。

好像武侠小说里边说的:“你的招式忘了没有?”,回答:“差不多忘了”,“忘了就好”。

这与数据库编程有什么关系?关系可大了。同志们学过Pascal、BASIC、C(C++)没有?如果没有,FOXBASE、FOXPRO应该学过吧?按以上这些语言编程,都是过程化的,说白一点就是一个数据一个数据、一条记录一条记录去处理(FOXBASE、FOXPRO不完全这样,但书上也经常是这样介绍的),当初我接触ACCESS 97时,一下子没有了IF、FOR这些语句(指数据处理),都用SQL语句,真是找不到北了,好在我学SQL语言时,也尽量忘掉这个IF、FOR,到我忘得差不多时,功夫也进了一大步,原来要编一大段程序,现在一两条SQL语句搞定,就算用多几条SQL语句,由于是在图形界面下做,可视化 *** 作,拉拉扯扯,再修改一下生成的SQL语句,也就省事多了。

由于ACCESS具备完整的SQL语言(FOXBASE没有、FOXPRO不完整),我从ACCESS 97开始用ACCESS编程,到现在为止,DAO、ADO很少用,加上最近从爱赛思上接触的一些技术,基本上不用DAO、ADO都可以了,可以从我的“未完工的库存管理”中看出,只是在特殊情况下才偶尔用一下。(少用,但不是不用,还得学,不要误解)

如何学好数据库编程?下面介绍一下本人的一些经验,仅供参考:

1首先要把原来一个数据一个数据、一条记录一条记录的数据处理方式忘掉,越彻底越好。

现在用成批处理了。少用记录集一条记录一条记录地处理,尽量用SQL语句。

2学好关系数据库的理论,尤其是规范化理论,表的设计一定要规范化,最起码要规范化到第三范式。集合运算(并、交、差)。关系运算(选择、投影、连接)。其中连接与规范化是紧密结合的。

3运用面向对象的技术:面向对象的分析OOA、面向对象的设计OOD、面向对象的编程OOP,根据表的关系,用窗体和子窗体、报表和子报表,仿真面向对象,这样可以增加程序的可读性和可维护性。(这是高级技术,同志们不要轻视,做大项目你就知道有用了)

4用查询时,通常一步做不出来,可以分几步做,本人通常是这么做的,从我给网友回复的例子中也可以看得出。为什么要这样做?(1)有些是SQL语言的限制,没办法一步做出来,逼的;(2)可以检查每一步查询的结果,容易调试;(3)增加可读性,便于日后维护。

5查询的结果用窗体显示或用报表打印,两者的技术差不多。通常改变打开窗体或报表的条件就可控制显示或打印的记录范围。另外用查询做数据源时,动态改变查询中的SQL语句,比在查询中引用窗体的控件要方便,因为SQL语句生成是在VBA中,可以先存放在字符变量中,然后再更新查询的SQL语句,这样就可以用断点来检查变量值对不对,如果在查询中引用窗体的控件,尤其是包含IIF()函数时,调试是很困难的。

6开发一个系统,首先要解决技术问题,即算法,用简单例子,把算法弄懂了,再详细设计,这一点从网友的提问中可以看出,有很多人问题表达不清楚,有的人其中夹了很多与算法无关的东西,尤其是很专业的东西,别人不容易看得明白,由于算法没搞清楚,程序就无法编了。

7不要使用过多的工具特性,使用过多的工具特性会使可读性降低,可维护性差,要别人帮忙时难以得到帮助,更要命的是可移植性差,从MDB到ADP就可以体会到了,所以在编程时可读性很重要,可移植性更重要,你甘心自己的程序就固定在一个环境下运行吗?你甘心永远用一个工具搞开发吗?为了你的“钱途”,不要玩弄太多的技巧,当然技术研究是另外一码事。

sql入门讲座

SQL Server 2000 看图教程pdf

轻松搞定 sql server 2000 程序设计pdf

SQLServer2000开发者指南pdf

SQL Server 2000编程员指南pdf

Oracle_8i_PL_SQL高级程序设计pdf

Oracle Developer使用指南pdf

Oracle_8 & 8i开发使用手册pdf

VB 和 SQL Server 编程指南

Visual Basic 开发Web数据库指南

VisualBasic的数据库开发应用

VisualBasic6数据库编程大全

Visual Basic6_X程序设计—SQL应用

Visual Basic6_0 中文版数据库和Internet

书籍下载地址:>

以上就是关于搜索引擎在网络信息检索的地位及作用_搜索引擎与信息检索的关系全部的内容,包括:搜索引擎在网络信息检索的地位及作用_搜索引擎与信息检索的关系、小角X射线衍射和SAX是一样的吗、我想考数据库系统工程师,请给点意见等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10138928.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存