从广度优化抓取策略研究搜索引擎蜘蛛爬行规则

从广度优化抓取策略研究搜索引擎蜘蛛爬行规则,第1张

广度优化抓取策略研究搜索引擎蜘蛛爬行规则

搜索引擎处理大量的网页。一方面为了节省带宽、计算和存储资源,另一方面为了满足用户的搜索需求,用有限的资源去捕捉有价值的网页,所以搜索引擎在处理大量网页时会有一定的策略。简要介绍了网页抓取的主要策略,如广度优先、深度遍历策略、非重复抓取策略、大站点优先策略、不完全pagerank策略、OCIP策略和协作抓取策略。

深度优先,深度优先遍历策略;优先的原因是重要的网页往往靠近种子网站;万维网的深度并没有我们预想的那么深,而是出乎意料的深(中国的万维网只有17个直径和长度,也就是任意两个网页之间可以访问17次);多履带协同抓取深度优先的缺点:容易使履带陷入死区,不宜重复抓取;不应该抓住机会;

解决以上两个缺点的方法是深度优先抓取和不重复抓取。要防止爬虫无限期地先抓宽度,就必须抓到一定深度。达到这个深度,也就是万维网的直径和长度后,限制程度,停止爬行。当爬行在深度停止时,那些太深而不能爬行的页面总是期望从其他种子站点更经济地到达。

限制抓取深度会破坏无限循环的条件,即使发生循环,也会在有限次数后停止。评价:宽度优先和深度优先遍历策略能有效保证爬取过程的紧凑性,即在爬取过程(遍历路径)中,总是爬取同一域名下的网页,而很少爬取其他域名下的网页。

无重复抓取的策略保证了一个变化不大的网页只能抓取一次,避免了重复抓取占用大量CPU和带宽资源,从而集中有限的资源区域抓取更重要、更高质量的网页。Larser网站优先通常是大型网站的优质内容,网页质量一般更高。从网站的角度来衡量网页的重要性是有一定依据的。对于URL队列中要抓取的页面,下载优先级由等待下载的页面数量决定。

下载页面(不完整互联网页面的子集)的部分pagerank策略(Partialpagerank)与待爬取的URL队列中的URL一起组成一组页面,并计算集合中的pagerank;经过计算,将待爬取的URL队列中的页面按照pagerank得分从高到低排序,形成一个SE。那是履带式缝合。应该依次向下搜索的URL列表。Pagerank是一种全局算法,即当所有页面都被下载时,计算结果是可靠的,但爬虫在爬行时只能接触到部分页面,因此在爬行时无法进行可靠的pagerank计算,所以称为不完全pagerank策略。

OCIP策略(在线页面重要性计算)字面意思是“在线页面重要性计算”,是一种改进的pagerank算法。在算法开始之前,每个互联网页面都被赋予相同的值。当一个页面p被下载后,p会将自己的值平均分配给页面中包含的链接,同时清除自己的值。对于待爬取的URL队列中的网页,根据现有值的大小,优先下载值较大的网页。

协同爬取策略(爬取加速策略)可以通过增加爬虫数量来提高整体爬取速度,但需要将工作量分解到不同的网络爬虫上,以保证分工明确,防止多个爬虫爬取同一页面,浪费资源。

通过分解网络主机的IP地址,爬虫只能抓取一个中小网站的网页片段。出于经济原因,通常在一台服务器上提供不同的网络服务,这样多个域名对应一个IP段;而新浪、搜狐等大型网站通常使用负载均衡的IPgro。Up技术,同一个域名对应多个。IP地址。所以这种方法不方便。通过分解网页的域名,爬虫只能抓取网页的域名,给不同的爬虫分配不同的域名。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/880054.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-13
下一篇 2022-05-13

发表评论

登录后才能评论

评论列表(0条)

保存