如果robots中写入了禁止搜索引擎抓取,那么蜘蛛是不会抓取的。
2:检查网站空间或服务器的地理位置。
如果网站服务器空间在国外或相对偏远的国外,有可能爬虫有无法访问的情况。
3:咨询空间服务商看是否对你所需要的蜘蛛做了屏蔽策略。
国外的一些空间有服务商针对搜索引擎做了一些策略,不排除屏蔽百度蜘蛛访问的可能。
4:域名曾绑定别的服务器,但此时更换了空间和绑定,原有ip已不存在
进入百度站长资源平台进行抓取测试,如果ip错误则点击手动刷新,清除蜘蛛ip缓存记录。
5:检查远程服务器是否宕机,但是开启了CDN永久在线功能
这种情况偶尔是有的,由于cdn缓存了网站,因此浏览器能打开,但是蜘蛛等其他方式无法打开。1先看看服务器是否把蜘蛛的ip屏蔽了,robots文件是否设置正确,要允许蜘蛛抓取
2再确认服务器是否稳定,页面打开是否超时,页面是否存在过多的死链
3再看看网站代码结构和内容是否质量不高
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)