是否有其他文本处理工具可以自动利用并行性并更快地处理数据?解决方法 尝试提供awk并行实现的唯一awk实现是 parallel-awk,但现在看起来项目已经死了.
否则,并行化awk的一种方法是将输入拆分为块并并行处理它们.但是,拆分输入数据仍然是单线程的,因此可能会破坏性能增强目标,主要问题是标准拆分命令无法在线边界处拆分而不读取每一行.
如果您有可用的GNU拆分,或者支持-n l / *选项的版本,这里有一种优化的并行处理文件的方法,假设您有8个vcpu:
inputfile=input.txtoutputfile=output.txtscript=script.awkcount=8split -n l/$count $inputfile /tmp/_pawk$$for file in /tmp/_pawk$$*; do awk -f script.awk $file > ${file}.out &donewaitcat /tmp/_pawk$$*.out > $outputfilerm /tmp/_pawk$$*总结
以上是内存溢出为你收集整理的在awk中并行处理?全部内容,希望文章能够帮你解决在awk中并行处理?所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)