搜索引擎的蜘蛛程序爬行网页时是否将网页内容存在了搜索引擎服务商的服务器中了?

搜索引擎的蜘蛛程序爬行网页时是否将网页内容存在了搜索引擎服务商的服务器中了?,第1张

是的。 搜索引擎服务器会一刻不停的从互联网上抓取网页,存放到本地的机器上,然后建立索引,并且对外提供检索服务。典型的工作流程是
1。搜集
在这个流程中,用网络爬虫 或者叫spider的程序模块,不断地从web上寻找网页并且下载下来。最长用的方法是,把整个web网络看作是一个有向图,从种子URL集合开始,开始抓取并且存到本地,并且解析出网页内容中包含的url链接,然后把这些新的url加到url集合中。一般按照宽度优先的方式来查找。 这个过程不断重复直到URL集合中所有链接都已经采集过,或者是采集时间限制到了,或者是所有的不超过某一深度的连接都已经采集过了。这些下载下来的网页的标准html文本,以及采集url,采集时间等要素都要记录下来。
采集器还要注意对被采集网站的影响,避免采集造成攻击式的后果。
2。预处理
这个过程比较复杂
21 对html网页进行解析并且建立索引
html网页需要去掉html标签和一些垃圾连接,比如广告等。 对于网页的正文内容要建立索引。 索引是检索最重要的数据来源,对于检索速度和效果影响是根本性的。在索引中词和网页都用数字来标记。 常用的是倒排索引,格式如下 termid : docid1 docid2 docid3 其中termid也就是我们常说的词,(这个要通过对网页内容切词/分词之后得到),在索引中一般用词的编号来代替。docidx是所有包含该term的网页的编号。
22 计算每篇网页的重要程度。 一般各个网站的首页都比较重要,需要赋予较高的权重。常用的方法是利用网页之间的链接关系,类似学术研究上的相互引用关系,来计算每个网页的重要性,这就是page rank google就是靠它起家的
23 重复网页的消除 网络上的网页多是好几份的,大家你抄我的我抄你的,连个错别字都不会改的情况都存在 这些重复网页浪费了搜索引擎的代价,更重要的是影响检索的效果
3 检索服务
我们在检索端输入查询串之后,要经过分词处理然后利用的到词,得到termid,到前面21 生成的索引查找, 得到符合检索条件的网页的id 然后用网页的内容计算的权重和22 计算的page rank数值,以及其他的权重(比如 anchor text 等) 一起对每个网页给出一个最终权重 这些网页按照权重从大到小的排序之后输出 就是我们看到的检索结果了
当然这里谈到的只是一些最基本的实现方法 其实每个步骤都是非常复杂的一项工作,很多的技巧在里面,比如存储结构,比如一些自然语言处理技术,比如分类聚类等
上面的方法只能做一个demo系统,要真正的高性能的好的系统,还要其他更深的技术搜索引擎是个高门槛的东西
可以参考
The Anatomy of a Large-Scale Hypertextual Web Search Engine
是google的雏形的东西一些主要的技术都提到了在google上能找到这篇文章的pdf
希望对你有用
谢谢

百度搜索希望收录和展现的应具有以下三个维度的特点:
一,所在网页维度
1、所在网页主题与网站经营方向、主题一致。百度搜索认为,与网站主题一致的网页会受到站长的更多重视,其页面上的更可信
2、周边有可信的、精准的、针对的相关描述,包括上下文描述、说明、alt属性、title,以及anchor
3、所在网页没有权限。这点与百度网页搜索的要求是一致的,同样认为需要用户登录才可浏览的网页用户体验非常不好,蜘蛛也无法完成填写用户名和密码的工作
4、链接不要写在JS里,不要使用异步加载等方式进行展现,现阶段百度对JS的解析成功率还有待提升
二,所在网站维度
1、目前百度网页搜索与百度搜索共用Baiduspider,网站如果想在搜索有较好表现的话,首先要对Baiduspider充分友好,保证Baiduspider对站点的抓取解析和收录。
2、百度搜索会参考网站在百度网页搜索体系中的评价打分,一般来说如果网站在网页搜索体系中拥有可信度、不存在恶意作弊和过度SEO行为的话,在搜索中也会有较好的表现
3、网站所在服务器稳定,网站打开速度流畅。百度搜索当然不希望用户看到相关后,满怀希望地点击网页地址换来的却是长久无尽的等待
三,自身维度
1、尽量清晰。百度搜索排序时,在其他条件相当的情况下,更高清的可以得到优先展现
2、与清晰度相似的是尺寸,尺寸大小应与所表现的内容相匹配,并非越大越好,尺寸小的也不一定就会受到歧视
3、内容主体突出,视觉效果好。如果上有水印,水印应该位于边角位置,不对主体造成遮挡
4、稀缺资源最受百度搜索青睐,但在此提醒一下站长,如果您的属于优质稀缺资源,千万别忘了给配上靠谱儿的说明文字


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/13421208.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-02
下一篇 2023-08-02

发表评论

登录后才能评论

评论列表(0条)

保存