scrapy默认有url去重,存数据库时的数据该怎么去重?

scrapy默认有url去重,存数据库时的数据该怎么去重?,第1张

可以用redis做判断去重:

启动redis时,将已存在数据加载到redis

通过redis判断数据是否重复

重复就更新 *** 作,否则 插入

Scrapy依赖于twisted,所以如果Scrapy能用,twisted肯定是已经安装好了。

抓取到的数据,可以直接丢到MySQL,也可以用Django的ORM模型丢到MySQL,方便Django调用。方法也很简单,按数据库的语句来写就行了,在spiders目录里定义自己的爬虫时也可以写进去。

当然使用pipelines.py是更通用的方法,以后修改也更加方便。你的情况,应该是没有在Settings.py里定义pipelines,所以Scrapy不会去执行,就不会生成pyc文件了。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10024677.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-04
下一篇 2023-05-04

发表评论

登录后才能评论

评论列表(0条)

保存