1.对方有反爬程序
几乎所网站为了防止一些恶意抓取,会设置反爬程序,你会发现明明很多数据显滑伍示在浏览器上,但是却抓取不出信胡或来。
2.伪装方式没有绕过目标网站反爬
网站都有反爬虫机制做仔,防止爬取数据,爬虫想要爬取数据,就需要隐藏自身的身份,伪装成用户的身份进行访问,如果没有伪装好,被检测到爬虫,也是被会限制的。比如请求头没有设置好,Cookie问题等等。
3.IP被限制
爬虫除了IP所有数据都可以伪装,当你的IP访问次数过多之后,就会被限制住,再也无法访问了。这个时候就需要带入ip代理池了。
错误代码是10060,连接超时,你的url_1访问应该没有问拿卜题,你试着调试一下另外几个地方捕获到的链接,验证一下捕获的URL的正确性,可以自己备李用浏览器试试。报错最好把所有报错代码都贴出来,要不然不容看出是什么地方有问题。
我大概跑了一下你的程序,我这边可以正常跑完,(把程序放在桌面上,消滚穗桌面上全是乱七八糟的图片了)。这样你检查下你的网络链接吧,用Python urlopen试试其他网页是否能正常get到。
假死什么意思?我遇到的几种情况是有可能你频繁的爬取同一个网站的数据,这个网站把伏裂你的ip暂时或者永久的加入了黑名单,一世厅键段时间内或者永久限制你的访问。网站可能有最大访问频率的限制,根据这搜巧个时间来设置时延可以解决这个问题。或者可能由于网络不稳定等原因。至于其他的问题就不清楚了。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)