搜索引擎的蜘蛛程序爬行网页时是否将网页内容存在了搜索引擎服务商的服务器中了

搜索引擎的蜘蛛程序爬行网页时是否将网页内容存在了搜索引擎服务商的服务器中了,第1张

是的。 搜索引擎服务器会一刻不停的从互联网上抓取网页,存放到本地的机器上,然后建立索引,并且对外提供检索服务。典型的工作流程是

1。搜集

在这个流程中,用网络爬虫 或者叫spider的程序模块,不断地从web上寻找网页并且下载下来。最长用的方法是,把整个web网络看作是一个有向图,从种子URL集合开始,开始抓取并且存到本地,并且解析出网页内容中包含的url链接,然后把这些新的url加到url集合中。一般按照宽度优先的方式来查找。 这个过程不断重复直到URL集合中所有链接都已经采集过,或者是采集时间限制到了,或者是所有的不超过某一深度的连接都已经采集过了。这些下载下来的网页的标准html文本,以及采集url,采集时间等要素都要记录下来。

采集器还要注意对被采集网站的影响,避免采集造成攻击式的后果。

2。预处理

这个过程比较复杂

21 对html网页进行解析并且建立索引

html网页需要去掉html标签和一些垃圾连接,比如广告等。 对于网页的正文内容要建立索引。 索引是检索最重要的数据来源,对于检索速度和效果影响是根本性的。在索引中词和网页都用数字来标记。 常用的是倒排索引,格式如下 termid : docid1 docid2 docid3 其中termid也就是我们常说的词,(这个要通过对网页内容切词/分词之后得到),在索引中一般用词的编号来代替。docidx是所有包含该term的网页的编号。

22 计算每篇网页的重要程度。 一般各个网站的首页都比较重要,需要赋予较高的权重。常用的方法是利用网页之间的链接关系,类似学术研究上的相互引用关系,来计算每个网页的重要性,这就是page rank google就是靠它起家的

23 重复网页的消除 网络上的网页多是好几份的,大家你抄我的我抄你的,连个错别字都不会改的情况都存在 这些重复网页浪费了搜索引擎的代价,更重要的是影响检索的效果

3 检索服务

我们在检索端输入查询串之后,要经过分词处理然后利用的到词,得到termid,到前面21 生成的索引查找, 得到符合检索条件的网页的id 然后用网页的内容计算的权重和22 计算的page rank数值,以及其他的权重(比如 anchor text 等) 一起对每个网页给出一个最终权重 这些网页按照权重从大到小的排序之后输出 就是我们看到的检索结果了

当然这里谈到的只是一些最基本的实现方法 其实每个步骤都是非常复杂的一项工作,很多的技巧在里面,比如存储结构,比如一些自然语言处理技术,比如分类聚类等

上面的方法只能做一个demo系统,要真正的高性能的好的系统,还要其他更深的技术搜索引擎是个高门槛的东西

可以参考

The Anatomy of a Large-Scale Hypertextual Web Search Engine

是google的雏形的东西一些主要的技术都提到了在google上能找到这篇文章的pdf

希望对你有用

谢谢

问题一:工作方式是什么意思 工作方法是指人们在实践的过程中为达到一定目的和效果所采取的办法和手段。最简单的工作方法和思路是PDCA循环,展开来就是凡事有记录,有计划,有执行,有结果,有改进,在这个过程中时刻体现目标驱动和用数据为证。

问题二:什么叫交互工作方式? 当计算机播放某多媒体程序的时候,编程人员可以发出指令控制该程序的运行,而不是程序单方面执行下去,程序在接耿到编程人员相应的指令后而相应地做出反应,这一过程及行为,我们称之为交互。

程序间数据的交互和调用。

交互(interactive),在计算机中意思为,参与活动的对象,可以相互交流,双方面互动。

问题三:vf 的两种工作方式是什么 在VF60中主要提供了两种工作方式:程序式和人机交互式。

程序式是通过程序来实现某项功能的;

而人机交互式是靠人来输入命令来执行的。

问题四:什么叫工作形式 一、从签订劳动合同的期限来分,有固定期限用工、无固定期限用工和以完成一定工作任务为期限的用工3种方式。

二、从聘用劳动者的身份来分,有固定用工和临时用工2种方式。

三、从工作制度来分,有标准工时工作制用工,不定时工作制用工,综合计算工时工作制用工3种方式。

问题五:汽车的工作方式是什么? 发动机把化学能转化为机械能,驱动车辆前行

问题六:集中工作方式和分散工作方式是指什么? 企业内部各级成本会计机构之间的组织分工,有集中工作和分散工作两种方式。

1、集中工作方式,是指成本会计工作中的核算、分析等各方面工作,主要由厂部成本会计机构集中进行,车间等其他单位中的成本会计机构和人员只负责登记原始记录和填置原始凭证,对它们进行初步的审核、整理和汇总,为厂部进一步工作提供资料。

2、分散工作方式,是指成本会计工作中的核算和分析等方面工作,分散由车间供其他单位的成本会计机构或人员分别进行。厂部成本会计机构负责对各下级成本会计机构或人员进行业务上的指导和监督,并对权臣全厂成本进行综合的核算、分析等工作。

问题七:互联网的基本工作方式是什么 搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

问题八:PLC的工作方式是什么? 循环扫描工作方式

以上就是关于搜索引擎的蜘蛛程序爬行网页时是否将网页内容存在了搜索引擎服务商的服务器中了全部的内容,包括:搜索引擎的蜘蛛程序爬行网页时是否将网页内容存在了搜索引擎服务商的服务器中了、什么是工作方式、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/9707592.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存