哈希值计算方式的计算过程是怎样理解的？请计算机高手解答。_系统运维

哈希算法是将任意长度的二进制值映射为固定长度的较小二进制值，这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母，随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入，在计算上是不可能的。

----------------------------------------------------------------------------------转自佰度百科。

1 基本原理

我们使用一个下标范围比较大的数组来存储元素。可以设计一个函数（哈希函数，也叫做散列函数），使得每个元素的关键字都与一个函数值（即数组下标）相对应，于是用这个数组单元来存储这个元素；也可以简单的理解为，按照关键字为每一个元素"分类"，然后将这个元素存储在相应"类"所对应的地方。

但是，不能够保证每个元素的关键字与函数值是一一对应的，因此极有可能出现对于不同的元素，却计算出了相同的函数值，这样就产生了"冲突"，换句话说，就是把不同的元素分在了相同的"类"之中。后面我们将看到一种解决"冲突"的简便做法。

总的来说，"直接定址"与"解决冲突"是哈希表的两大特点。

2 函数构造

构造函数的常用方法（下面为了叙述简洁，设 h(k) 表示关键字为 k 的元素所对应的函数值）：

a) 除余法：

选择一个适当的正整数 p ，令 h(k ) = k mod p

这里， p 如果选取的是比较大的素数，效果比较好。而且此法非常容易实现，因此是最常用的方法。

b) 数字选择法：

如果关键字的位数比较多，超过长整型范围而无法直接运算，可以选择其中数字分布比较均匀的若干位，所组成的新的值作为关键字或者直接作为函数值。

3 冲突处理

线性重新散列技术易于实现且可以较好的达到目的。令数组元素个数为 S ，则当 h(k) 已经存储了元素的时候，依次探查 (h(k)+i) mod S , i=1,2,3…… ，直到找到空的存储单元为止（或者从头到尾扫描一圈仍未发现空单元，这就是哈希表已经满了，发生了错误。当然这是可以通过扩大数组范围避免的）。

4 支持运算

哈希表支持的运算主要有：初始化(makenull)、哈希函数值的运算(h(x))、插入元素(insert)、查找元素(member)。

设插入的元素的关键字为 x ，A 为存储的数组。

初始化比较容易，例如

const empty=maxlongint// 用非常大的整数代表这个位置没有存储元素

p=9997 // 表的大小

procedure makenull

var i:integer

begin

for i:=0 to p-1 do

A[i]:=empty

End

哈希函数值的运算根据函数的不同而变化，例如除余法的一个例子：

function h(x:longint):Integer

begin

h:= x mod p

end

我们注意到，插入和查找首先都需要对这个元素定位，即如果这个元素若存在，它应该存储在什么位置，因此加入一个定位的函数 locate

function locate(x:longint):integer

var orig,i:integer

begin

orig:=h(x)

i:=0

while (i<S)and(A[(orig+i)mod S]<>x)and(A[(orig+i)mod S]<>empty) do

inc(i)

//当这个循环停下来时，要么找到一个空的存储单元，要么找到这个元

//素存储的单元，要么表已经满了

locate:=(orig+i) mod S

end

插入元素

procedure insert(x:longint)

var posi:integer

begin

posi:=locate(x) //定位函数的返回值

if A[posi]=empty then A[posi]:=x

else error//error 即为发生了错误，当然这是可以避免的

end

查找元素是否已经在表中

procedure member(x:longint):boolean

var posi:integer

日常使用过程中，对于文件的完整性的校验比较重要，最简单常见的方式是哈希值计算。主要使用场景：

macOS 和 Linux 都自带了相应工具，Windows 可以通过三方工具实现。

本文以 SHA256 进行演示。

对于上面在 macOS 和 Linux 中使用 find 命令的例子，原理是将 -exec 参数后面的内容作为一个命令行来执行，并使用找到结果的每一项内容替换 {} ，这会导致两个问题：

1、可能会导致构建的命令行过长，系统报错

2、为每个找到的结果都执行一次命令，可能会导致运行的进程过多

解决方法：使用 -print 参数结合 xargs 命令使用，如：

这里 xargs 命令使用 -I 参数，是因为直接执行的话，当文件名中有空格的时候，会被解释为两个参数。使用 -I 参数则可以进行替换处理，这样可以实现格式化字符串的效果。

更多详情参见《Linux命令学习之文件查找命令——find》

SHA256 Checksum Utilities

SHA256：

MD5：

（完）

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8981475.html

哈希值计算方式的计算过程是怎样理解的？请计算机高手解答。

发表评论

评论列表（0条）