simHash 文档指纹去重算法_教程

参考论文来源《Similarity estimation techniques from rounding algorithms》。介绍下这个算法主要原理，为了便于理解尽量不使用数学公式，分为这几步(标准做法)：

完整的算指纹的算法：

按照这种市面上的通用做法，传入的map 可以是无序的

有一个小问题提请注意

直接用 1<<n 得到 2 的n 次方到31次方以上就会超出int 的取值范围，

运算时直接用 (long)1<<n 或者 1l <<n 就行了

所以 nlp-cn 的算法可以简化如下：

两种方式的比较：

这里先引入一个概念： 抽屉原理

假设我们要寻找海明距离3以内的数值，根据抽屉原理，只要我们将整个64位的二进制串划分为4块，无论如何，匹配的两个simhash code之间至少有一块区域是完全相同的，如下图所示：

由于我们无法事先得知完全相同的是哪一块区域，因此我们必须采用存储多份table的方式。在本例的情况下，我们需要存储4份table，并将64位的simhash code等分成4份；对于每一个输入的code，我们通过精确匹配的方式，查找前16位相同的记录作为候选记录，如下图所示：

让我们来总结一下上述算法的实质：

假定我们最大判重海明距离为MAX_HD

1、将64位的二进制串等分成MAX_HD+1块

2、PUT *** 作：调整上述64位二进制，将任意一块作为前16位，总共有MAX_HD+1种组合，生成MAX_HD+1份table

3、GET *** 作：采用精确匹配的方式在MAX_HD+1份table中查找前16位，若找不到，说明不重复，做PUT *** 作；若找到了，则对剩余链做海明距离计算。

4、如果样本库中存有2^34 （差不多10亿）的哈希指纹，则每个table返回2^(34-16)=262144个候选结果，大大减少了海明距离的计算成本

为何要分桶？

两个字符串通过SimHash码和海明距离比较好判断是否相似，假设计算海明距离的时间为基本 *** 作时间。如果有海量的数据，一一比较计算的次数为 1 + 2 + 3 + ......+ n ，时间复杂度为 O(n^2) 级别。这样的时间复杂度肯定是不能接受的。

构建索引

将SimHashCode添加到索引

查询与索引库中比较的最近的海明距离

其中 bit[n] = 2^n ,索引降低比较时算法时间复杂度的方法是

将SimHashCode 比特位分成8段

其实这里也是用上了抽屉原理的，各位看官自己思考下吧。

分词 -->另写一篇博客说明

需要说明的一点：分词的时候需要去掉停用词等噪音词，分词是该算法特征抽取的关键一步。

就是md5

百度百科

开发历程

背景

在90年代初由MIT Laboratory for Computer Science和RSA Data Security Ic,的Ronald L. Rivest开发出来，经MD2、MD3和MD4发展而来。它的作用是让大容量信息在用数字签名软件签署私人密钥前被"压缩"成一种保密的格式（就是把一个任意长度的字节串变换成一定长的大整数）。不管是MD2、MD4还是MD5，它们都需要获得一个随机长度的信息并产生一个128位的信息摘要。虽然这些算法的结构或多或少有些相似，但MD2的设计与MD4和MD5完全不同，那是因为MD2是为8位机器做设计优化的，而MD4和MD5却是面向32位的电脑。这三个算法的描述和c语言源代码在Internet RFC 1321中有详细的描述，这是一份最权威的文档，由Ronald L. Rivest在1992年8月向IETF提交。

MD5最广泛被用于各种软件的密码认证和钥匙识别上。通俗的讲就是人们讲的序列号。

MD2算法

Rivest在1989年开发出MD2算法。在这个算法中，首先对信息进行数据补位，使信息的字节长度是16的倍数。然后，以一个16位的检验和追加到信息末尾，并且根据这个新产生的信息计算出散列值。后来，Rogier和Chauvaud发现如果忽略了检验将和MD2产生冲突。MD2算法加密后结果是唯一的（即不同信息加密后的结果不同）。

MD4算法

为了加

[MD5]

MD5

强算法的安全性，Rivest在1990年又开发出MD4算法。MD4算法同样需要填补信息以确保信息的比特位长度加上448后能被512整除（信息比特位长度mod 512 = 448）。然后，一个以64位二进制表示的信息的最初长度被添加进来。信息被处理成512位damg?rd/merkle迭代结构的区块，而且每个区块要通过三个不同步骤的处理。Den boer和Bosselaers以及其他人很快的发现了攻击MD4版本中第一步和第三步的漏洞。Dobbertin向大家演示了如何利用一部普通的个人电脑在几分钟内找到MD4完整版本中的冲突（这个冲突实际上是一种漏洞，它将导致对不同的内容进行加密却可能得到相同的加密后结果）。毫无疑问，MD4就此被淘汰掉了。

尽管MD4算法在安全上有个这么大的漏洞，但它对在其后才被开发出来的好几种信息安全加密算法的出现却有着不可忽视的引导作用。除了MD5以外，其中比较有名的还有sha-1、RIPEMD以及Haval等。

MD5算法

一年以后，即1991年，Rivest开发出技术上更为趋近成熟的md5算法。它在MD4的基础上增加了"安全-带子"（safety-belts）的概念。虽然MD5比MD4稍微慢一些，但却更为安全。这个算法很明显的由四个和MD4设计有少许不同的步骤组成。在MD5算法中，信息-摘要的大小和填充的必要条件与MD4完全相同。Den boer和Bosselaers曾发现MD5算法中的假冲突（pseudo-collisions），但除此之外就没有其他被发现的加密后结果了。

Van oorschot和Wiener曾经考虑过一个在散列中暴力搜寻冲突的函数（brute-force hash function），而且他们猜测一个被设计专门用来搜索MD5冲突的机器（这台机器在1994年的制造成本大约是一百万美元）可以平均每24天就找到一个冲突。但单从1991年到2001年这10年间，竟没有出现替代MD5算法的MD6或被叫做其他什么名字的新算法这一点，我们就可以看出这个瑕疵并没有太多的影响MD5的安全性。上面所有这些都不足以成为MD5的在实际应用中的问题。并且，由于MD5算法的使用不需要支付任何版权费用的，所以在一般的情况下（非绝密应用领域。但即便是应用在绝密领域内，MD5也不失为一种非常优秀的中间技术），MD5怎么都应该算得上是非常安全的了。

MD5用的是哈希函数,在计算机网络中应用较多的不可逆加密算法有RSA公司发明的MD5算法和由美国国家技术标准研究所建议的安全散列算法SHA。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/tougao/7958450.html

simHash 文档指纹去重算法

发表评论

评论列表（0条）