搜索引擎蜘蛛抓取配额是什么?

搜索引擎蜘蛛抓取配额是什么?,第1张

搜索引擎蜘蛛抓取配额是什么?

1月份,谷歌新的SEO品牌发言人GaryIllyes在谷歌官网博客上发布了一篇帖子:爬虫预算对GoogleBot意味着什么,该帖子讨论了搜索引擎蜘蛛抢夺份额的相关问题。对于大中小网站来说,都是非常重要的SEO问题,有时候会成为网站总流量的短板。

今天的帖子总结了GaryIllyes帖子中的很多博客和社区论坛帖子的具体内容及其之后的跟进,以及自己的一些例子和理解。

注意,以下定义同样适用于百度搜索。

什么叫搜索引擎搜索引擎蜘蛛抓取份额?

说白了,抓取份额就是搜索引擎蜘蛛在一个网站上抓取页面所花费的总时间限制。对于特殊的网站,搜索引擎蜘蛛在这个网站上花费的总时间是相对固定的,不容易无限制的抓取网站的所有页面。

Crawlbudget在英文中是Google用的,其意译就是抓取成本预算。我想我不想展示它的含义,所以我用抓取分享来表达这个定义。

做什么决定来抢份额?这涉及到抓取需求和抓取速度限制。

抓取要求

抓取需求指的是搜索引擎“想要”抓取特定网站的多少页面。

决策要求中有两个关键要素。一是页面权重,网站有多少页面达到了基础页面权重,搜索引擎想抓取多少页面。二是数据库索引Durant页面是否长期未升级。归根结底还是页面的权重。一个权重高的页面长期不升级是不容易的。

页面权重和网站权重也是密切相关的。提高网站权重可以让搜索引擎想要抓取更多的页面。

抓取限速

搜索引擎搜索引擎蜘蛛为了更好地抓取大量页面,碾压其他网站的web服务器并不容易。因此,为某个网站设置了一个爬行速率限制,这是web服务器能够承受的极限。在这个速度限制内,搜索引擎蜘蛛不容易降低网络服务器的速度并危及客户的浏览。

当网络服务器响应速度快时,这个限速会上升一点,爬行会加快,网络服务器响应速度会降低,限速随之而来,爬行会变慢,甚至终止爬行。

因此,抓取速度限制是搜索引擎可以抓取的页面数量。

抓取份额是由哪些决策的?

爬取份额是兼顾爬取需求和爬取速度限制的结果,即搜索引擎“想要”爬取和能够“爬取”的页面数量。

网站权重高,页面内容质量高,页面足够多,网络服务器速度快,抓取份额大。

小网站没必要担忧抓取份额

小网站的页面数量少,即使网站权重低,网络服务器也慢,每天搜索引擎蜘蛛至少能抓取几百个页面,抓取整个网站也要十几天。所以有几千页的网站都担心抢份额。一个几十万页面的网站,一般没什么大不了的。如果每天几十次的浏览就能让网络服务器变慢,SEO就不是必须考虑的重点了。

大中小型网站很有可能必须考虑到抓取份额

对于几十万页以上的大中小网站,很可能要考虑份额是否够用的问题。

抢的份额不足。比如网站有一万个页面,搜索引擎每天只抓取几万个页面。所以重新抢网站可能要花好几个月,甚至一年。也可能意味着某些关键页面抢不到,所以没有排名,或者关键页面不能马上升级。

如果您希望网站页面被立即充分地捕获,您必须首先确保web服务器是快速的,并且页面足够小。如果网站有很多高质量的数据信息,抓取份额会受到抓取率的限制。提高页面速率会立即提高爬网速度限制,从而提高爬网份额。

百度搜索百度站长工具和谷歌搜索控制台都有数据抓取信息。如下图所示,百度搜索一个网站的抓取次数:

图中SEO每天发一个这个水平的小网站。页面抓取的次数和抓取的时间没有太大的相关性(取决于web服务器的速度和页面的大小),这说明你担心自己的抓取份额用不完。

在某些情况下,抓取次数和抓取时间有一定的对应关系,另一个大网站如下图所示:

可以看出,爬取时间的提高(减少页面规格、提高网络服务器速度、改进数据库查询)显著提高了爬取次数,使大量页面被爬取并收录到百度中,解析一次xml更快。

Google搜索控制台中较大网站的示例:

最上面是抓取的页数,中间是抓取的信息量。除非网络服务器出现故障,否则两者应该匹配。底部是页面抓取时间。你也看到了,页面网络很快,每天抢几百万的页面是没有问题的。

自然,如前所述,能抓到几百万的页面是一回事,搜索引擎想不想抓到是另一回事。

大中型网站往往要兼顾抓取份额的另一个原因是,不用把相对有限的抓取份额花在无意义的页面抓取上,导致应该抓取的关键页面没有机会被抓取。

获取份额的典型页面有:

很多过虑挑选页面。这一点,两年前有关失效URL爬取数据库索引的贴子里有详尽探讨。站内拷贝內容低质量、废弃物內容日历这类的无尽个页面

上面这种页面被很多人抓取,很有可能抓取的份额已经用完,但是应该被抓取的页面却没有被抓取。

如何节约抓取份额?

自然,第一步是减少页面图像大小,提高网络服务器的速度,改善数据库查询,减少捕获时间。

然后,尽量减少上面列出的消耗grab份额的项目。内容产品有一些质量问题,网站建设有一些问题。如果是构造问题,很简单的方法就是robots文件严禁抓取,但是会消耗一些页面权重,因为权重只能访问。

在某些情况下,使用连接nofollow功能可以保存grab共享。对于小网站来说,加nofollow是没有意义的,因为你花的钱不够抢份额。大网站,nofollow可以在一定程度上 *** 纵权重的流动性和分布。精心策划的nofollow会降低无意义页面的权重,增加关键页面的权重。搜索引擎抓取的时候会使用一个URL抓取目录,其中要抓取的URL是按照页面权重排列的。如果关键页面权重增加,会先被抓取,无意义的页面权重可能低到搜索引擎都不愿意抓取。

最后,许多研究表明:

连接加nofollow不容易消耗抓取份额。但在Google是会消耗权重的。noindex标识不可以节约抓取份额。搜索引擎要了解页面上面有noindex标识,就得先抓取这一页面,因此并不节约抓取份额。canonical标识有时能节约一点抓取份额。和noindex标识一样,搜索引擎要了解页面上面有canonical标识,就得先抓取这一页面,因此并不立即节约抓取份额。但有canonical标识的页面被抓取頻率常常会减少,因此会节约一点抓取份额。抓取速率和抓取份额并不是排行要素。但没被抓取的页面也算不上排行。

注:阅读关于网站基本建设方法的文章,请将场景移至网站建设教程频道栏目。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/768992.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-02
下一篇 2022-05-02

发表评论

登录后才能评论

评论列表(0条)

保存