超大文件如何计算md5？_教程

首先，至少没必要先把整个文件读到内存里。比如在 php 里，如果有人 md5(file_get_contents(big_file_name)) 就确实非常不妥当。因为 md5 是每 512 bit 作为一个 chunk 进行计算的。所以可以每次读取一部分的内容（最少 512 bit，比较合适是 st_blksize），进行那些 chunk 部分的计算，之后再读取下一部分内容继续计算。简单先说下，md5是有规范的，提供了现成的算法（规范的名字就是md5算法。RFC 1321 The MD5 Message-Digest Algorithm），我们只需要翻译成c、java、python、js等等代码。前端算超大文件可以取头跟尾chunk内容及整个文件的name + update 时间一起算md5值就比较快了，只是为了做唯一标识来做断点续传，从业务逻辑上应该够用了。推荐使用 js spark-md5 开源库，支持直接append各个部分然后算出md5。我做的断点续传功能就是用它在前端算的md5. 各大网盘 TB级别 md5算法应该是这样的，楼上几位都说了文件md5是文件流分块算出来的，那么网盘想获得TB级别文件的md5就必须读取整个文件的文件流才能得到，但是这么做效率十分低下，运算时间是个问题。但是大家忽略了一个问题，文件在上传的过程也是分块上传的，这些上传的碎片其实也是文件流。那么可以把计算md5的时间分摊到每一个碎片上。这样每上传一个片段就计算一点等上传完成了，文件的md5也就算出来了。okTB级别MD5不是问题了。上传完成md5自然就出来了。不知道我的猜测大家有其他看法没有。刚才提出都传完了就还怎么秒传。秒传最基本的是先要前端算出md5然后传给后端（可能需要更多种哈希值）我研究了很久前端没有办法秒内完成超大文件MD5的，现在用html5 的api 可以算出任意大小文件的 md5 但是耗时相当长。我没有解决办法。也没有想到那些网盘怎么在前端快速获取md5的。

要处理2个10G的文件进行内容比较，内存又不够大。

借助md5算法，对文件里的每条记录进行md5处理，然后再装入内存，大大减少存储空间的占用，解决问题。

感恩少龙的建议。

一条信息，如果已经进行md5处理，那么比对的时候，也要同样使用md5的方式，才能正确比对。否则就不能正确的解读信息。而原本就没有md5处理，那么接收的时候，就不能再进行md5处理，否则就不能正确解读。用在生活中的沟通，也是同样的道理。由于基于每个人自己生活的习惯和对人的理解，对同样信息的不同解读，结果就大不相同。

MD5信息摘要算法 （英语：MD5 Message-Digest Algorithm），一种被广泛使用的密码散列函数，可以产生出一个128位（16 字节）的散列值（hash value），用于确保信息传输完整一致。

文件签名。 MD5在论坛上、软件发布时经常用，是为了保证文件的正确性，防止一些人盗用程序，加些木马或者篡改版权，设计的一套验证系统。每个文件都可以用MD5验证程序算出一个固定的MD5码来。软件作者往往会事先计算出他的程序的MD5码并帖在网上。因此，在网上看到某个程序下载旁注明了MD5码时，可以把它记下来，下载了这个程序后用MD5验证程序计算你所下载的文件的MD5码，和你之前记下MD5码比较，就知道你下的是不是原版了，如果两者相同，那么你所下载的是原版。如果计算出来的和网上注明的不匹配，那么你下载的这个文件不完整，或是被别人动过手脚。相当于我们的身份z 独一无二的

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/11409554.html

超大文件如何计算md5？

发表评论

评论列表（0条）