给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,找出a,b文件中相同的url?

给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,找出a,b文件中相同的url?,第1张

给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,找出a,b文件中相同的url?

这种找相同数据的步骤:

由于单文件总量为5G*64=320G,无法一次读入内存,同样将a文件hash函数读入1000个文件中,每个大小为300M左右,同样将b文件也是以相同的hash函数读入另外的1000个文件,这样就就形成了1000对文件,每一对文件才有可能存在相同的url,将a的映射文件hashmap,然后遍历对应的本对中b的映射文件,若在a的hashmap中存在,则为相同url,这样统计下来

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/4891475.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-12
下一篇 2022-11-12

发表评论

登录后才能评论

评论列表(0条)

保存