请注意,在python2.6中,heapq有一个新的合并功能,它将为您完成此 *** 作。
要处理自定义键功能,您只需将文件迭代器包装上装饰它的东西,以便它根据键进行比较,然后将其剥离:
def decorated_file(f, key): for line in f: yield (key(line), line)filenames = ['file1.txt','file2.txt','file3.txt']files = map(open, filenames)outfile = open('merged.txt')for line in heapq.merge(*[decorated_file(f, keyfunc) for f in files]): outfile.write(line[1])
[编辑]
即使在较早的python版本中,简单地从较晚的heapq模块中实现合并也是可能值得的。它是纯python,在python2.5中未修改地运行,并且由于它使用堆来获取下一个最小值,所以在合并大量文件时应该非常有效。
您应该能够简单地从python2.6安装中复制heapq.py,将其作为“ heapq26.py”复制到您的源代码中,并使用“
from heapq26import merge”-其中没有使用2.6特定功能。另外,您也可以复制合并功能(重写heappop等调用以引用python2.5 heapq模块)。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)