如果设置好了,而且没有发送特殊header需求,就裤指辩不需要设置了。
另外提一点,如果想每次请求headers都不胡缺一样可以使用
from fake_useragent import UserAgent自己实现一个中逗薯间件
需要先导入random模块
然后在meddlewares.py中创建RandomUserAgentMiddleWare()类.重写scrapy内置的UserAgentMiddleware.
需要先导入UserAgent
from fake_useragen timport UserAgent
需要在settings.py中设置
# 用于配置随机user-agent的类型,如果值是random,表示任意随机一个;如果配置的是chrome,则只随机chrome中的user-agent.
RANDOM_UA_TYPE ='chrome'
最后同上面一样需要配滑在settings.py中设置DOWNLOAD_MIDDLEWARES,将系统默认的随返卖桐机请求头给禁掉,再添加我们漏坦自己定义的随机UserAgent
在爬取大型站点的时候,或遇到某些特殊情况的时候,往往需要赞同爬虫,并稍后再接着之知键前执行到的位置继续爬取,而不是每次出问题都从头开始。
scrapy的暂停与重启的设置很简单:
1.创建工作目录
2.用以下命令启动爬段派虫
上述命令中:
somespider : 启动的爬虫名
crawls/somespider-1 :你创建的工握猛贺作目录+爬虫序号
后面的somespider-1是用来区分不同的爬虫的,因为官方文档提到了:
3.暂停爬虫
以上两步,爬虫便可以能暂停的状态运行,当你需要暂停的时候,只需在运行窗口发送暂停命令即可:
ctrl + c
tips:
4.暂停后的重启
输入与启动相同的命令即可:
然后爬虫就会接着上一次暂停后的位置继续运行。
完。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)