给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，找出a，b文件中相同的url？

天津荣程钢铁 • 2022-11-12 • 随笔 • 阅读 19

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，找出a，b文件中相同的url？

这种找相同数据的步骤：

由于单文件总量为5G*64=320G，无法一次读入内存，同样将a文件hash函数读入1000个文件中，每个大小为300M左右，同样将b文件也是以相同的hash函数读入另外的1000个文件，这样就就形成了1000对文件，每一对文件才有可能存在相同的url，将a的映射文件hashmap，然后遍历对应的本对中b的映射文件，若在a的hashmap中存在，则为相同url，这样统计下来

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/4891475.html

文件读入映射函数内存

打赏

微信扫一扫

支付宝扫一扫

天津荣程钢铁一级用户组

你在做项目中有做过压力测试吗，怎么做

上一篇 2022-11-12

如果你有机会创业，做一家公司的创始人，你会选择哪个方向、以什么样的形式切入？请说说你的理由，以及你想怎么把这家公司做大。

下一篇 2022-11-12

发表评论

登录后才能评论

评论列表（0条）