编写程序，实现两个fastq配对文件的合并_教程

fastq本质上是一个ASCII码明文文本文件，所以不需要什么编程，一条命令就可以解决：

cat *.fasta >output.fasta

拆分，把每一条拆成一个文件：

awk '/^>氏祥袜/{f=++d".fasta"} {print >f}'歼激 input.fasta

你就会宴数得到一堆001.fasta，002.fasta.......

这是一个可以自动合并数据的简易脚本

有一批数据有三十几个样本,测序公司返回数据时由于数据量不达标，需要加测一次，部分样本数据量还是不够, 又加测一次才够，总共三次数据，需要根据轮卖衫样本名称合并成一个fq.gz。这么多数据要一个一个对应太麻烦了.

那么如果经常发生这种情况，建议换一腊腔家测序公司。

通常是根据lane号区分的,比如:

再有就是两批数据完全相同的名称:

这两种都支持!

只需要放入需要合并的数据的所有路径,有多少批数据路径配明就放多少批数据路径：

SE的数据没有验证过,

python3 DataMerge.py ../20220331_HG5GLDSX3_Result/Rawdata ../20220404_HFVV3DSX3_Result/Rawdata

点赞+评论获取脚本

最近，有一批任务需要把两批的fastq合并到一起并压缩成一个fastq文件才能继续往下做，由于存储空间有限又不能直接全部跑上，只能按样本逐个分批跑。众所周知，一般fastq是成对存在的，所需要对read1和read2分别合并一次，然而这次任务的fastq文件比较大，合并然后压缩一次需要1天左右，那对于一组fastq就要2-3天，这也太耗时间了，所以我在想能不能read1和read2 同时跑上，这就可以节省一半的时间了。

平时也能遇到很多类似的任务，特别是在进程数有限的情况下，如果这些小任务单独占用一个进程，而任务很多就很耗时间，如果能在一个进程下实现多个线程并行执行，就能大大提高运行效率。关于进程和线程的知识可以参考知乎的这篇文章【 Shell“ 多线程”，提高工作效率】，整理的也比较有条理，能比较容易读懂。

当然，某些博主也写过类似的文章，例如这篇【 shell后台限制多并发控制后台任务强度进行文件拷贝】但是实在是太高深莫测了，看不懂，一时半会儿也学不会。本文将示例Shell实现多线程的简单版本，其实不用太复杂。

其实只需要两个步骤，第一步是给需要并行运行的命令行在结尾加上"&"，代表放到后台运行，第二步是在在所有并行任务的后面加上一句“wait”，意思是等所有通过“&”放到后台运行的任务跑完后再继续执行后面的任务，这些就能实现所有带有“&”的行并行执行了。

看完脚本是不是觉得很简单？

上面的脚本适合并行任务少的，可以手弊陵粗动加&和wait，但是如果有几十个甚至上百个的小任务就租镇比较麻烦了。但不用担心，可以写个循环，批量运行。

循环的结果也是跟上面类似的，只是多了个循环结构。

如果需要执行的任务只有一行，可以把大括号去掉。

关于for和while的循环可以查看之前的文章【 Shell常用循环示例（for和while批量汪宽处理）2022-05-25 】

需要注意的是多线程并行还是需要有限制的，毕竟都是在一个进程里运行，如果线程太多了会卡顿的，建议控制在100个以内，当然还有毕竟高级和复杂的方法可以实现限制。因为上面的脚本已经够我用了，没继续往下学，以后可以再补充。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12160141.html

编写程序，实现两个fastq配对文件的合并

发表评论

评论列表（0条）