有两个办法:
(1)自己装几个虚拟机,分别不同IP在上面跑爬虫的时候频率别太高了,加个过程里加个 time.sleep(1)或(2),通常岩庆隐情况只要频率不是太高是无法区别是正常阅读还是爬东西的。 (2)找proxy用代理,respose发现异常就换IP
首先,你是在模拟web请求,而不是在调用api,所以,我反对楼上说的ip限制的可能性。第二,网站有可能会根据你的行为绝烂判断,但是那是发生在你有相应的行为之后。如果你信备是爬了一阵之后发现变成403了,那么这铁定是百分百的行为判断。
第三,如果你是第一次请求就403了,那我可以很负责的告诉你,问题出在你的header里面。最常见的验证就是验证ua。
滑宏毁 最简单的方法,就是完全模拟用户,你可以在chrome中自己抓个包,然后将header完全同步成chrome中的header,我相信你会看到200的返回
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)