如何用redis去重

如何用redis去重,第1张

$key = 'URL_HASH'

if(!$redis->hGet($key, md5($url))){

// do something ...

// 抓取一个 $url 后

$redis->hSet($key, md5($url), true)

}这里需要注意的是,如果是多线程的,要考虑其他进程,可以吧 bool 值改为枚举值。

您在使用Redisson时出现相同数据的情况,有以下几种原因:

1、数据重复插入,在插入数据时没有进行去重 *** 作,导致相同的数据被插入到了Redis中。

2、并发写入,在高并发环境下,多个线程同时写入相同的数据,导致重复数据的写入。

3、Redis配置错误,Redis的配置可能有误,导致相同数据在不同的Redis节点上被保存。

4、解决方法,对于数据重复插入的问题,需要在插入数据之前进行去重 *** 作,对于并发写入的问题,可以通过使用Redisson提供的分布式锁机制来保证只有一个线程能够写入相同的数据,如果是Redis配置错误导致的问题,则需要检查Redis的配置是否正确,并确保Redis的数据是一致的。

当一个站点有数据更新的时候,需要进行增量爬取,通常有以下集中情况

情况1的时候,我们对此特定页面的内容做哈希,当然要去除动态变化的那一部分,比如有的页面有验证码或者日期,程序定期执行,在执行的最开始检测此页面的哈希值跟上次抓取是否有变化,如果有变化就开始抓取。

情况2的时候,我们会对页面入口内容做哈希,并且存储分页面的URL哈希值,如果页面入口哈希值发生变化,获取新增的页面url列表,在这里需要用到url的去重,和数据去重类似,采用redis集合类型处理。

redis集合类型不允许添加重复的数据,当添加重复的时候时,返回0,并且添加失败。我们将所有的url list存入redis集合,当页面入口变化时,进行页面url去重,只抓取新增的页面。

结果去重常用的有两种方法:

其中布隆过滤器是通过写文件的方式,多个进程使用需要添加同步和互斥,较为繁琐,不推荐多线程/进程的时候使用,另外写文件是磁盘I/O *** 作,耗费时间长,可以累积到一定数量再一次写入,或者利用上下文管理器在程序结束或异常退出时一次性写入。

上下文管理器,在主函数执行之前执行 def enter ,在程序运行结束或异常退出时执行def exit , 上下文管理器还可以用来统计程序执行的时间。

使用redis集合去重能够支持多线程多进程.

利用redis集合无重复数据的特点,在redis建立集合,往其中添加数据的sha1值,添加成功返回1,表示无重复,添加失败返回0,表示集合中已经有重复数据

使用 : 步骤:1. 建立redis连接池 2. 重复检查

下面的例子是接口,并提供example。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/11861473.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-19
下一篇 2023-05-19

发表评论

登录后才能评论

评论列表(0条)

保存