scrapy默认有url去重，存数据库时的数据该怎么去重？

束线带 • 2023-5-4 • sql • 阅读 113

可以用redis做判断去重：

启动redis时，将已存在数据加载到redis

通过redis判断数据是否重复

重复就更新 *** 作，否则插入

Scrapy依赖于twisted，所以如果Scrapy能用，twisted肯定是已经安装好了。

抓取到的数据，可以直接丢到MySQL，也可以用Django的ORM模型丢到MySQL，方便Django调用。方法也很简单，按数据库的语句来写就行了，在spiders目录里定义自己的爬虫时也可以写进去。

当然使用pipelines.py是更通用的方法，以后修改也更加方便。你的情况，应该是没有在Settings.py里定义pipelines，所以Scrapy不会去执行，就不会生成pyc文件了。

欢迎分享，转载请注明来源：内存溢出

数据可以用自己的你的定义

打赏

微信扫一扫

支付宝扫一扫

上一篇 2023-05-04

下一篇 2023-05-04

登录后才能评论