二种方式,第一种目录抓取,,首先蜘蛛会抓取第一层也就是网站根目录下的所有文件夹,然后在抓取文件里的文件夹,想像一下,如果文件夹深度几百,几千层,或者是无限深,蜘蛛是很难达到的,根本就抓不到的,
第二个,以链接进行抓以,不管通过外部链接也好,到达你网站的页面,如首页,的域名,这个时候蜘蛛会跟着面里面的链接,html代码中的网址,从上到下进行抓取,然后又会跟着那个链接继续向下一个页面进行抓取
总结,为了能够更好的抓取,蜘蛛是结合二种方式来的,所以在《百度搜索引擎优化指南2.0》《谷歌搜索引擎优化初学者指南》都有对结构的说明,你是用树形式的,还是扁平的二种方式
1、将您的产品做百度推广2、将您的产品做一个网站,然后百度搜索可以出现出来
3、做百度关键字优化
搜索引
擎是一组程序,这个程序模拟人的行为去上网,然后打开网页,把网页里的信息保存到自己的电脑上,然后提取网页里的链接,再次打开,然后再次把网页内容保存
下来,因为互联网上的网页都是交叉连接的,所以这个程序就会无限的循环下去,这就好像是一只蜘蛛在一个网上不停的爬行一样,所以我们叫这种程序为爬虫程
序,也叫蜘蛛程序,通常我们说的百度蜘蛛就是指这种程序。
百度在把所有他认为有用的信息都保存下来之后按照一定的规则去排序好之后供人家检
索,这样我们就可以检索到互联网上基本所有的信息了(并不是全部,有很多蜘蛛爬取不到的),这里我们要注意一个问题,我们在互联网上制造一个网页之后百度
是通过其它网页上的链接访问到你这个网页的,如果互联网的其它网页上没有你这个新网页的地址(链接)那么百度的蜘蛛就无法访问到你的网页,当然也就不会收
录到百度的数据库中,在用户检索的时候当然也就不会出现在排名结果中,因为你的网页是一个孤岛,外面没有任何通到这里的通道,这种情况很多时候出现在一些
公司网站上,他们以为做了一个网站放到服务器上自己可以打开就可以了,并不知道自己的网站其实是孤岛,并不属于互联网的一部分。
前面说到了一
个前提,想要让自己的网页出现在百度的搜索结果中,那必然需要百度收录自己的网页,如果百度没有收录自己的网页,那当然是无论怎么样搜索都是搜索不到的,
想要检测自己的网页是否被百度收录可以把这个页面的地址直接放到百度上搜索一下试试,如果出现了结果,那说明已经收录,如果没有出现结果,就说明没有收
录。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)