随机访问大型二进制文件

随机访问大型二进制文件,第1张

概述我有一个大的二进制文件(12 GB),我想在其中动态组装一个较小的二进制文件(16 KB).假设文件在磁盘上,并且较小文件的字节在某种程度上随机分布在大型二进制文件中.什么是最好和最快的方法?到目前为止,我已经做不到三分钟了.我尝试过的东西,或多或少具有相同的性能:>将文件转换为HDF5格式并使用C接口(慢速).>通过文件写一个小的C程序到fse

我有一个大的二进制文件(12 GB),我想在其中动态组装一个较小的二进制文件(16 KB).假设文件在磁盘上,并且较小文件的字节在某种程度上随机分布在大型二进制文件中.什么是最好和最快的方法?到目前为止,我已经做不到三分钟了.

我尝试过的东西,或多或少具有相同的性能:

>将文件转换为HDF5格式并使用C接口(慢速).
>通过文件写一个小的C程序到fseek()(慢).

如何快速随机访问这些数据?

我希望查询时间不到几秒钟.

最佳答案答案基本上是“不”.

单个机械磁盘驱动器需要10毫秒左右才能执行搜索,因为它必须移动磁头. 16000寻求每次搜寻10毫秒的时间等于160秒.你编写代码的方式完全没有区别;例如mmap()将没有任何区别.

欢迎来到物理世界,软件人:-).您必须改善 *** 作的位置.

首先,对要访问的位置进行排序.文件中的附近位置可能在磁盘附近,并且在附近位置之间寻找比随机搜索更快.

接下来,您的磁盘可能会读取大约100兆字节/秒的顺序数据;也就是说,它可以在执行搜索所需的大约相同的时间内按顺序读取1兆字节.因此,如果您的两个值相差小于1兆字节,那么最好读取它们之间的所有数据,而不是在它们之间执行搜索. (但要对此进行基准测试,以找到硬件上的最佳权衡.)

最后,RAID可以帮助提高吞吐量(但不是寻求时间).它还可以提供多个磁头,如果您想要多线程读取您的读取代码,它们可以同时寻找.

但一般来说,访问随机数据是您可以要求计算机执行的最糟糕的事情,无论是在内存中还是在磁盘上.顺序访问和随机访问之间的相对差异每年都在增加,因为物理是本地的. (好吧,无论如何,我们依赖的物理学.)

[编辑]

@JeremyP’s suggestion使用SSD是一个不错的选择.如果它们是一种选择,它们的有效寻道时间约为0.1 ms.这意味着您可以期望您的代码在此类硬件上的运行速度提高50-100倍. (我没有想到这一点,因为我通常使用1 TB范围内的SSD太昂贵的文件.)

[编辑2]

正如@FrankH在评论中提到的,我的一些建议认为该文件在磁盘上是连续的,这当然不能保证.您可以通过使用良好的文件系统(例如XFS)并在文件创建时提供“提示”来帮助改进这一点(例如,使用posix_fallocate通知内核您打算填充大文件). 总结

以上是内存溢出为你收集整理的随机访问大型二进制文件全部内容,希望文章能够帮你解决随机访问大型二进制文件所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/1047467.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-25
下一篇 2022-05-25

发表评论

登录后才能评论

评论列表(0条)

保存