Scrapy-不断获取URL以从数据库中进行爬网

小制作用废品做 • 2022-12-16 • 随笔 • 阅读 13

我个人建议您每次必须爬网时都启动一个新的蜘蛛，但是如果您想使该过程继续下去，我建议您使用

spider_idle

信号：

@classmethoddef from_crawler(cls, crawler, *args, **kwargs):    spider = super(MySpider, cls).from_crawler(crawler, *args, **kwargs)    crawler.signals.connect(spider.spider_closed, signals.spider_closed)    crawler.signals.connect(spider.spider_idle, signals.spider_idle)    return spider...def spider_idle(self, spider):    # read database again and send new requests    # check that sending new requests here is different    self.crawler.engine.crawl(         Request(  new_url,  callback=self.parse),         spider     )

在这里，您将在蜘蛛实际上关闭之前发送新请求。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5664329.html

蜘蛛请求信号获取发送

打赏

微信扫一扫

支付宝扫一扫

小制作用废品做一级用户组

0 0

不要等待在Python中使用Selenium加载页面

上一篇 2022-12-16

AttributeError：模块“ importlib”没有属性“ util”

下一篇 2022-12-16

发表评论

登录后才能评论

Scrapy-不断获取URL以从数据库中进行爬网

发表评论

评论列表（0条）