scrapy的暂停与重启

scrapy的暂停与重启,第1张

在爬取大型站点的时候,或遇到某些特殊情况的时候,往往需要赞同爬虫,并稍后再接着之前执行到的位置继续爬取,而不是每次出问题都从头开始。

scrapy的暂停与重启的设置很简单:

1.创建工作目录

2.用以下命令启动爬虫

上述命令中:

somespider : 启动的爬虫名

crawls/somespider-1 :你创建的工作目录+爬虫序号

后面的somespider-1是用来区分不同的爬虫的,因为官方文档提到了:

3.暂停爬虫

以上两步,爬虫便可以能暂停的状态运行,当你需要暂停的时候,只需在运行窗口发送暂停命令即可:

ctrl + c

tips:

4.暂停后的重启

输入与启动相同的命令即可:

然后爬虫就会接着上一次暂停后的位置继续运行。

完。

需要先导入random模块

然后在meddlewares.py中创建RandomUserAgentMiddleWare()类.重写scrapy内置的UserAgentMiddleware.

需要先导入UserAgent

from fake_useragen timport UserAgent

需要在settings.py中设置

# 用于配置随机user-agent的类型,如果值是random,表示任意随机一个;如果配置的是chrome,则只随机chrome中的user-agent.

RANDOM_UA_TYPE ='chrome'

最后同上面一样需要在settings.py中设置DOWNLOAD_MIDDLEWARES,将系统默认的随机请求头给禁掉,再添加我们自己定义的随机UserAgent

1.在 settings 配置文件中新增IP池:

2.修改中间件文件 middlewares.py

3.在 settings 中设置 DOWNLOADER_MIDDLEWARES


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/11355483.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-15
下一篇 2023-05-15

发表评论

登录后才能评论

评论列表(0条)

保存