爬行、抓取、索引、收录,指的都是什么?

爬行、抓取、索引、收录,指的都是什么?,第1张

爬行、抓取、索引、收录,指的都是什么?

一位读者在搜索引擎蜘蛛抓取配额系统的留言板上留言道:

不是,这个索引标志是指搜索引擎被告知蜘蛛可以抓取页面,那么noindex不抓取页面是不是很不方便?!那么,为什么最后很多文章都显示“noindex”logo救不了市场份额。搜索引擎要想知道页面上有noindex的logo就要先抓取这个页面,这样并不能挽回市场份额。"

留言板上的留言显示,这位读者不知道什么是抓取,什么是索引,index和noindex的实际意义是什么。Noindex标识不是说禁止抓取页面,而是禁止索引页面。两者含义不同,作用也不同。

在看SEO相关的博客和社区论坛的时候,应该会感觉很多SEO都不知道爬行、抓取、索引、百度索引的定义到底是什么意思,有什么区别,noindex、nofollow、robots文件的作用是什么。没有对这个定义的准确理解,在解决商业网站建设的问题,决定哪些页面必须被抓取,哪些页面必须被索引,哪些页面必须被禁止抓取和索引的时候,就很难搞清楚该怎么做。甚至就像很多抢配额制帖子的留言板说的,说到这种情况的解决,我根本不知道自己在说什么。

所以SEO的基本的,关键的,容易混淆的定义,我以为我之前在博客里看过,在留言板上看过,在看帖子之前也看过,但是我之前从来没有看过。在SEO实战演练的登录密码本上有写,但是在SEO的日常帖子上没有看过。今天补上。

爬取是什么?

爬行是指搜索引擎蜘蛛从已知页面中分析出带有连接偏向的URL,然后沿着连接找到新页面(即带有连接偏向的URL)的全过程。自然,搜索引擎蜘蛛在发现新的网址时不会爬过去抓取新的页面,而只是将找到的网址存储在待抓取的详细地址库文件中,搜索引擎蜘蛛按照一定的顺序从详细地址库文件中获取待抓取的网址。

抓取是什么?

抓取是一个搜索引擎。搜索引擎蜘蛛从待抓取的详细地址库文件中获取待抓取的URL,浏览此URL,并将加载的HTML代码存储到数据库中进行查询。搜索引擎蜘蛛的抓取就是像电脑浏览器一样打开这个页面,像客户端的电脑浏览器浏览一样,也会在网络服务器的初始系统日志中留下记录。

索引是什么?

索引是指把一个URL的信息整理出来,存储在数据库中供查询,也就是索引库。当客户进行搜索时,搜索引擎从索引库文件中获取URL信息,并以一种排列方式呈现。index的英文是index。使用索引库进行检索,所以索引的URL可以被客户检索到,未索引的URL客户在百度搜索中看不到。

需要注意的是,说白了,“一个URL的信息”并不局限于搜索引擎蜘蛛从URL爬取的内容,还可以来自其他来源,比如外部链接、连接的锚文本等。在某些情况下,索引数据库文件中关于该URL的信息根本没有从该URL捕获的内容,但是搜索引擎知道该URL的存在,并且具有一些其他信息。

爬行和索引不是一回事。

百度收录是什么?

感觉百度收录和索引没什么区别。只是百度收录是从搜索客户的角度来观察的。搜索的时候要找这个网址,就是这个网址被百度收录了。从搜索引擎的角度来说,URL被百度收录,就是这个URL的信息存储在索引数据库文件中。英语中没有百度收录的词,但是索引中使用了相同的词索引。

noindex的功效是什么?

头信息中的metanoindex标识告诉搜索引擎,不需要索引这个URL,也就是客户搜索时找不到这个URL,这个URL不容易返回百度搜索目录的信息。

Noindex并不意味着搜索引擎不用抓取这个网址。事实上,noindex必须先被抓取才会有效。不然搜索引擎怎么会看到页面的HTML代码里有noindexlogo?

robots文件的功效是什么?

Robots文件告诉搜索引擎,有些网址不必抓取。注意这里说了不用抓取,但没说不用索引。是noindex的反义词。

nofollow的功效是什么?

将nofollow特征添加到一个连接中,告诉搜索引擎没有必要沿着这个连接爬行,并且假设这个连接将不存在。注意,nofollow只是告诉搜索引擎蜘蛛不必抓取这个链接,并没有说不必抓取被链接偏向的URL或者索引被链接偏向的URL。nofollow既不禁止爬行也不禁止索引。

定义之后,强调了很多SEO人经常不理解的情况:

沒有被抓取的页面是能够被索引的

换句话说,搜索引擎蜘蛛并没有浏览和抓取这个页面(比如禁止robots文件抓取),但是这个页面有存储在索引数据库文件中的信息,客户在搜索时仍然可以看到。

比如淘宝的所有网站都是禁止百度爬虫用robots文件抓取的,但是禁止没有noindex的索引(如上所述,禁止抓取后,没有办法禁止索引,不抓取就看不到noindex标志)。所以即使百度搜索没有浏览抓取淘宝页面,但是很多淘宝页面都是百度搜索索引的,客户可以找到:

百度搜索从网上那么多的连接中知道淘宝首页的存在。根据连接的锚文本,它也知道这个页面的标题是关于淘宝的。自然,它对百度口碑的评论数更了解。所以,即使百度爬虫不抓取淘宝首页,客户仍然可以找到,并显示一些百度问答的信息。

想让百度搜索返回淘宝首页,该怎么做?禁止抓取robots文件,禁止在页面上索引noindex。

被抓取的页面是可以不被索引的

最常见的就是如上所述,禁止使用noindex对页面的头部信息进行索引,对页面进行抓取。看完noindex,没有索引,在百度搜索也不好返回。

也有可能是页面内容被抄袭,被截取,质量不高。虽然搜索引擎抓取了页面,但是在整个索引过程中发现了内容问题,就扔掉了,没有索引。所以页面还没有被百度收录,一般需要先查看初始系统日志,看是否被抓取过。如果已经被抓取,可能是内容产品的质量问题。如果根本没有被抓取过,建议先看一下URL结构。

加了nofollow的连接总体目标页面能够被抓取和索引

如前所述,在nofollow中,爬行和索引都是不被禁止的。nofollow的作用是告诉搜索引擎,蜘蛛不必关注这个链接,只需假设这个链接不会存在,但nofollow只对这个链接有效,对其他链接无效。这个链接增加了nofollow,并不代表其他地区就没有偏向这个网址的正常链接了。如果在其他区域有没有nofollow的链接,总的目标URL仍然会被找到、爬行(假设它没有被robotx文档禁止)和索引(

以上定义和应用在SEO中非常重要。如果我还没明白,我又不知道怎么表达了。我只建议多看几遍。

创建者:Zac@SEO一天一贴

版权归:中澳云虚拟主机

亚丁。一定要通过连接注明创作者、原出处和本声明。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/763558.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-01
下一篇 2022-05-01

发表评论

登录后才能评论

评论列表(0条)

保存