搜索引擎的工作原理是什么?

搜索引擎的工作原理是什么?,第1张

搜索引擎的工作原理总共有四步:

第一步:爬行,搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链

接,所以称为爬行。

第二步:抓取存储,搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。

第三步:预处理,搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

第四步:排名,用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。

不同的搜索引擎查出来的结果是根据引擎内部资料所决定的。比如:某一种搜索引擎没有这种资料,您就查询不到结果。

扩展资料:

定义

一个搜索引擎由搜索器、索引器、检索器和用户接四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。

检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

起源

所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter

Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。

Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件 。

由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。

参考资料来源:百度百科-搜索引擎

服务器硬件
其实说起来服务器系统的硬件构成与我们平常所接触的电脑有众多的相似之处,主要的硬件构成仍然包含如下几个主要部分:中央处理器、内存、芯片组、I/O总线、I/O设备、电源、机箱和相关软件。这也成了我们选购一台服务器时所主要关注的指标。
整个服务器系统就像一个人,处理器就是服务器的大脑,而各种总线就像是分布与全身肌肉中的神经,芯片组就像是脊髓,而I/O设备就像是通过神经系统支配的人的手、眼睛、耳朵和嘴;而电源系统就像是血液循环系统,它将能量输送到身体的所有地方。
对于一台服务器来讲,服务器的性能设计目标是如何平衡各部分的性能,使整个系统的性能达到最优。如果一台服务器有每秒处理1000个服务请求的能力,但网卡只能接受200个请求,而硬盘只能负担150个,而各种总线的负载能力仅能承担100个请求的话,那这台服务器得处理能力只能是100个请求/秒,有超过80%的处理器计算能力浪费了。
所以设计一个好服务器的最终目的就是通过平衡各方面的性能,使得各部分配合得当,并能够充分发挥能力。我们可以从这几个方面来衡量服务器是否达到了其设计目的;R:Reliability——可靠性;A:Availability——可用性;S:Scalability——可扩展性;U:Usability——易用性; M:Manageability——可管理性,即服务器的RASUM衡量标准。
由于服务器在网络中提供服务,那么这个服务的质量对承担多种应用的网络计算环境是非常重要的,承担这个服务的计算机硬件必须有能力保障服务质量。这个服务首先要有一定的容量,能响应单位时间内合理数量的服务器请求,同时这个服务对单个服务请求的响应时间要尽量快,还有这个服务要在要求的时间范围内一直存在。
如果一个WEB服务器只能在1分钟里处理1个主页请求,1个以外的其他请求必须排队等待,而这一个请求必须要3分钟才能处理完,同时这个WEB服务器在1个小时以前可以访问到,但一个小时以后却连接不上了,这种WEB服务器在现在的Internet计算环境里是无法想象的。
现在的WEB服务器必须能够同时处理上千个访问,同时每个访问的响应时间要短,而且这个WEB服务器不能停机,否则这个WEB服务器就会造成访问用户的流失。
为达到上面的要求,作为服务器硬件必须具备如下的特点:性能,使服务器能够在单位时间内处理相当数量的服务器请求并保证每个服务的响应时间;可靠性,使得服务器能够不停机;可扩展性,使服务器能够随着用户数量的增加不断提升性能。因此我们说不能把一台普通的PC作为服务器来使用,因为,PC远远达不到上面的要求。这样我们在服务器的概念上又加上一点就是服务器必须具有承担服务并保障服务质量的能力。这也是区别低价服务器和PC的差异的主要方面。
在信息系统中,服务器主要应用于数据库和Web服务,而PC主要应用于桌面计算和网络终端,设计根本出发点的差异决定了服务器应该具备比PC更可靠的持续运行能力、更强大的存储能力和网络通信能力、更快捷的故障恢复功能和更广阔的扩展空间,同时,对数据相当敏感的应用还要求服务器提供数据备份功能。而PC机在设计上则更加重视人机接口的易用性、图像和3D处理能力及其他多媒体性能。

服务器是计算机的一种,它比普通计算机运行更快、负载更高、价格更贵。服务器在网络中为其它客户机(如PC机、智能手机、ATM等终端甚至是火车系统等大型设备)提供计算或者应用服务。

服务器具有高速的CPU运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性。根据服务器所提供的服务,一般来说服务器都具备承担响应服务请求、承担服务、保障服务的能力。服务器作为电子设备,其内部的结构十分的复杂,但与普通的计算机内部结构相差不大,如:cpu、硬盘、内存,系统、系统总线等。

扩展资料:

优点

1、整合资源

完成资源整合是服务器虚拟化的主要工作,在信息时代,各行各业在发展过程中,产生的数据呈现爆炸式增长,如何实现对这些数据和资源的综合利用,是各大行业亟需解决的问题。计算机服务器虚拟化技术的研发和应用,为实现资源整合提供技术支持和应用平台。

尤其是近年来,云计算技术的不断普及,集中化资源管理愈发先进,为云技术的发展和推广提供了条件,目前各大企业对计算机硬件资源的利用率不足20%,资源浪费现场依然非常严重,通过服务器虚拟化技术可在原应用保持不变的基础上,集中在某一计算机服务器中,可促使企业的物力资源调利用率大大提升,从而降低了各项硬件的投入,节约了成本。

2、低能耗

在信息时代,技术革新的重中之重,也是降低资源消耗的主要途径,云计算技术备受推广,在IT界大量推广云计算技术。计算机服务器虚拟化是提升资源利用率的主要途径,也可以对能耗进行合理的管理。虚拟化技术则可以模拟出不同场景,从而实现对计算机系统中各种硬件及软件进行全面系统的检查,发现问题立即显示在界面上,提醒相关人员及时处理,从而达到降低能耗,实现绿色发展的目的。

3、降低运营成本

在信息化服务商不断经营转型的背景下,集约化对成本控制提出了更高的要求,投资愈发精细化,而企业实现IT化运行的关键自傲与集中对数据中心的投资,此项内容主要涉及到两方面内容;

①计算机硬件和许可服务支持的投资。

②计算机系统运维承的成本投资,通过计算机服务器虚拟化技术,能充分发挥服务器应的性能。

4、应用更加平坦化

通过服务器虚拟化技术可促使计算机服务器应用平台更加平坦化和透明化,在信息时代,数据中心平台逐年增加,计算机服务器的应用愈发复杂,不同平台在具体运行过程中,需要充分考虑不同 *** 作系统和中间件的层面问题。通过服务器虚拟化技术可有效解决此类问题,将应用和硬件平台相互隔离,实现了跨越平台的限制。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13266836.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-29
下一篇 2023-06-29

发表评论

登录后才能评论

评论列表(0条)

保存