lmdb的基本思路是使用mmap访问存储,不管这个存储实在内存上还是在持久存储上。
lmdb的所有读取 *** 作都是通过mmap将要访问的文件只读地装载到宿主进程的地址空间,直接访问相应的地址,这减少了硬盘、内核地址控件和用户地址空间之间的拷贝,也简化了平坦的“索引空间”上的实现,因为使用了read-only的mmap,规避了因为宿主程序错误将存储结构写坏的风险。IO的调度由 *** 作系统的页调度机制完成。
而写 *** 作,则是通过write系统调用进行的,这主要是为了利用 *** 作系统的文件系统一致性,避免在被访问的地址上进行同步。
我们在前面提及,lmdb上的读取 *** 作,直接读取了mmap所装载的内存地址,那么,如果所读取的内容被修改了,不是出现了不一致的结果吗?事实是,lmdb上的所有内容都不会被修改。
lmdb用MVCC处理并发读写访问的问题。其要点在于:
对于一个树形数据结构,当它的一个节点上发生变更的时候,就创建一个新的节点,在新的节点上容纳这些变更,由于这个节点的父节点也要发生变更(从指向原来的节点变更为指向新的这个节点),那么重复上述过程,即,实际发生变更的节点通往根节点路径上的所有节点都必须重新创建一份,当变更工作完成的时候,我们通过一个原子 *** 作提交这个变更版本。大体是这样一个过程:
如上图所示,每个新的版本就会产生一个新的跟节点,按照上述处理,最终的存储中就会保留历史上所有的版本,当然,所有版本中就包括了当前所有读者所读的版本,因此,变更不会对读者产生任何影响,所以,写可以不被读阻塞。
上面,我们讨论了读的情况,上述方法承诺给每一个读一个一致的版本(就是它进入时所得到的那个版本),但没有承诺给它一个最新的版本,我们考虑在一个事务中,依据一个值变更另一个值的情况,很显然,当我们想要提交变更的时候,很可能我们进入时所得到的版本已经不是最新的,也就是说,在我们的进入和提交之间发生了另一个提交,这种情况下,如果提交了变更就会发生不一致的状况,譬如一个单调递增的计数器,就因此可能“吃掉”多个递增。为了解决这个问题,我们只要在提交时检查我们进入的版本是否最新版本即可,这常常可以通过一个CAS原子 *** 作完成,如果这个 *** 作失败,就重新进入存储,重做整个事务。这样,读也可以不被(可能的)写阻塞。
按照上述描述,我们的存储中保存了所有的历史版本,这是否必要呢?事实上,我们所以保存历史版本,是因为有可能有读者读它,新的读者总是读到最新的版本,老的版本就没有用了,如果一个版本上没有任何读者(和写者),那它就没有必要存在了。我们可以依据上述原理实现旧版本的回收,不过lmdb做了一些改进:
如上所述,我们现在只有两个根节点,所有变更最终都要修改这个根节点,这样,所有的写事实上要被序列化。这并没有降低性能,理由是这样的,如我们上面所述的,当两个变更并发进行的时候,确切的说,是进入同一个版本,并依据这个版本进行了某些变更,然后要提交这些变更,两者中必有一个事务必须重做,因为在它的提交和进入之间有别的提交,这个结论可以推广到多个并发的情况。也就是说,变更事实上是序列化的,由于不同的变更之间没有阻塞,MVCC的方案消耗了更多的计算资源(所有失败的提交都要被重做)。因此,lmdb用一把锁序列化了所有的变更 *** 作。
以上就是lmdb实现中大部分要点。
直接使用如下的代码(在ipython下面使用):import numpy as np
import os
import matplotlib.pyplot as plt
import lmdb
from PIL import Image
import random
import sys
# import caffe module
caffe_root = '/home/henglan/Desktop/caffe-hybridnet/'
sys.path.insert(0, caffe_root + 'python')
import caffe
# read file
train_file = open('train.txt')
inputs_data_train = train_file.readlines()
train_file.close()
print("Creating Training Data LMDB File ..... ")
in_db = lmdb.open('Train_Data_lmdb',map_size=int(1e12))
with in_db.begin(write=True) as in_txn:
for in_idx, in_ in enumerate(inputs_data_train):
# print in_idx
in_ = in_.strip()
im = np.array(Image.open(in_))
Dtype = im.dtype
if len(im.shape) == 2:
print('here')
(row, col) = im.shape
im3 = np.zeros([row, col, 3], Dtype)
for i in range(3):
im3 [:, :, i] = im
im = im3
print('here')
im = im[:,:,::-1]
im = Image.fromarray(im)
im = np.array(im,Dtype)
im = im.transpose((2,0,1))
im_dat = caffe.io.array_to_datum(im)
in_txn.put('{:0>10d}'.format(in_idx),im_dat.SerializeToString())
in_db.close()
# read file
label_file = open('label.txt')
inputs_data_label = label_file.readlines()
label_file.close()
print("Creating Training Label LMDB File ..... ")
in_db1 = lmdb.open('Label_Data_lmdb',map_size=int(1e12))
with in_db1.begin(write=True) as in_txn:
for in_idx, in_ in enumerate(inputs_data_label):
in_ = in_.strip()
Dtype = 'uint8'
L = np.array(Image.open(in_), Dtype)
Limg = Image.fromarray(L)
L = np.array(Limg,Dtype)
L = L.reshape(L.shape[0],L.shape[1],1)
L = L.transpose((2,0,1))
L_dat = caffe.io.array_to_datum(L)
in_txn.put('{:0>10d}'.format(in_idx),L_dat.SerializeToString())
in_db1.close()
print("Finish creating lmdb file ......")
convert_imageset.exe --shuffle --resize_width=256 --resize_height=256 ./ train.txt img_train_lmdb全部为当前路径,自行加上相关路径。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)