首先我们看下百度百科的介绍:百度蜘蛛,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、、视频等内容。
在看下工作机制:百度蜘蛛的构建的原理。搜索引擎构建一个调度程序,来调度百度蜘蛛的工作,让百度蜘蛛去和服务器建立连接下载网页,计算的过程都是通过调度来计算的,百度蜘蛛只是负责下载网页,目前的搜索引擎普遍使用广布式多服务器多线程的百度蜘蛛来达到多线程的目的。
从百度百科的介绍我们不难看出,只要有网络的地方百度蜘蛛都可爬行,互联网就像一张大网一样,蜘蛛可以在这张网上随意的爬行。
这种情况好象只能通过robotstxt设置来解决了,当然对于几个主要的搜索引擎蜘蛛与一淘蜘蛛你可以允许它们访问,但可以通过robotstxt设置禁止其访问一些链接太多,意义不大的页面。好象目前这是最好的解决方法。当然,朋友,搜索引擎蜘蛛爬行导致服务器卡死,另一方面也证明了你的服务器不太适应现在发现需要,可能更现实的解决方法是更换网站服务器。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)