python爬虫爬取不出信息

python爬虫爬取不出信息,第1张

Python爬虫程序本身没有问题,但是却爬取不了数据主要原因如下:

1.对方有反爬程序

几乎所网站为了防止一些恶意抓取,会设置反爬程序,你会发现明明很多数据显滑伍示在浏览器上,但是却抓取不出信胡或来。

2.伪装方式没有绕过目标网站反爬

网站都有反爬虫机制做仔,防止爬取数据,爬虫想要爬取数据,就需要隐藏自身的身份,伪装成用户的身份进行访问,如果没有伪装好,被检测到爬虫,也是被会限制的。比如请求头没有设置好,Cookie问题等等。

3.IP被限制

爬虫除了IP所有数据都可以伪装,当你的IP访问次数过多之后,就会被限制住,再也无法访问了。这个时候就需要带入ip代理池了。

错误代码是10060,连接超时,你的url_1访问应该没有问拿卜题,你试着调试一下另外几个地方捕获到的链接,验证一下捕获的URL的正确性,可以自己备李用浏览器试试。

报错最好把所有报错代码都贴出来,要不然不容看出是什么地方有问题。

我大概跑了一下你的程序,我这边可以正常跑完,(把程序放在桌面上,消滚穗桌面上全是乱七八糟的图片了)。这样你检查下你的网络链接吧,用Python urlopen试试其他网页是否能正常get到。

假死什么意思?

我遇到的几种情况是有可能你频繁的爬取同一个网站的数据,这个网站把伏裂你的ip暂时或者永久的加入了黑名单,一世厅键段时间内或者永久限制你的访问。网站可能有最大访问频率的限制,根据这搜巧个时间来设置时延可以解决这个问题。或者可能由于网络不稳定等原因。至于其他的问题就不清楚了。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12293411.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-24
下一篇 2023-05-24

发表评论

登录后才能评论

评论列表(0条)

保存