最近,有一批任务需要把两批的fastq合并到一起并压缩成一个fastq文件才能继续往下做,由于存储空间有限又不能直接全部跑上,只能按样本逐个分批跑。众所周知,一般fastq是成对存在的,所需要对read1和read2分别合并一次,然而这次任务的fastq文件比较大,合并然后压缩一次需要1天左右,那对于一组fastq就要2-3天,这也太耗时间了,所以我在想能不能read1和read2 同时跑上,这就可以节省一半的时间了。
平时也能遇到很多类似的任务,特别是在进程数有限的情况下,如果这些小任务单独占用一个进程,而任务很多就很耗时间,如果能在一个进程下实现多个线程并行执行,就能大大提高运行效率。关于进程和线程的知识可以参考知乎的这篇文章【 Shell“ 多线程”,提高工作效率 】,整理的也比较有条理,能比较容易读懂。
当然,某些博主也写过类似的文章,例如这篇【 shell后台限制多并发控制后台任务强度进行文件拷贝 】但是实在是太高深莫测了,看不懂,一时半会儿也学不会。本文将示例Shell实现多线程的简单版本,其实不用太复杂。
其实只需要两个步骤, 第一步是给需要并行运行的命令行在结尾加上"&",代表放到后台运行,第二步是在在所有并行任务的后面加上一句“wait”,意思是等所有通过“&”放到后台运行的任务跑完后再继续执行后面的任务 ,这些就能实现所有带有“&”的行并行执行了。
看完脚本是不是觉得很简单?
上面的脚本适合并行任务少的,可以手动加&和wait,但是如果有几十个甚至上百个的小任务就比较麻烦了。但不用担心,可以写个循环,批量运行。
循环的结果也是跟上面类似的,只是多了个循环结构。
如果需要执行的任务只有一行,可以把大括号去掉。
关于for和while的循环可以查看之前的文章【 Shell常用循环示例(for和while批量处理)2022-05-25 】
需要注意的是多线程并行还是需要有限制的,毕竟都是在一个进程里运行,如果线程太多了会卡顿的,建议控制在100个以内,当然还有毕竟高级和复杂的方法可以实现限制。因为上面的脚本已经够我用了,没继续往下学,以后可以再补充。
一堆的错误,帮你改了。自己diff一下就明白了。
下次贴问题之前,请确保你的代码能执行……
另外,之所以是串行,是因为你根本就没有执行过文件里的命令,而永远是 sleep 同样长的时间,当然最终的效果就是串行,你可以改成 sleep 随机长的时间,或者确实的执行文件里的命令,就能看到并行效果了 (确保命令做一些 IO *** 作,或者多核cpu)。
#!/bin/bashif [ -z "$1" ]then
echo "Usage:`basename $0` filename(containing the cmd you want to execute)"
exit 1
else
if [ ! -f "$1" ]then
echo "The file \"$1\" you provide doesn't exist!"
exit 1
else
cmdfile=$1
jobnum=`cat $cmdfile|grep -v "^#"|grep -v "^[[:space:]]#"|wc -l`
line=`cat $cmdfile|wc -l`
fi
fi
#创建管道文件,并将其文件描述符设置为6,同时以读写的方式打开它
tmp_fifo="tmp$$.fifo"
mkfifo ${tmp_fifo}
exec 6<> ${tmp_fifo}
#限定线程数的上限
thread=3
for(( i=0i<$threadi++ ))
do
echo
done >&6
for(( j=0j<${line}j++ ))
do
read -u 6
{
read command
if [ -n "`echo $command|grep -v "^#"`" ] && [ -n "`echo $command|grep -v "[[:space:]]#"`" ]then
echo "[`date +"%Y%m%d %H:%M:%S"`]:command is $command,j is $j"
sleep 3
echo "[`date +"%Y%m%d %H:%M:%S"`]:job $j finishes successfully!">>/tmp/multpro_`date +%Y%m%d`.log
fi
#作业完成后向管道文件写回一个按行符
echo >&6
}&
done < "$cmdfile"
wait
exec 6<&-
rm ${tmp_fifo}
exit 0
程序代码test.c共两个线程,一个主线程,一个读缓存区的线程:#include <pthread.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>
char globe_buffer[100]
void *read_buffer_thread(void *arg) //这里先声明一下读缓存的线程,具体实现写在后面了
int main()
{
int res,i
pthread_t read_thread
for(i=0i<20i++)
globe_buffer[i]=i
printf("\nTest thread : write buffer finish\n")
sleep(3)\\这里的3秒是多余,可以不要。
res = pthread_create(&read_thread, NULL, read_buffer_thread, NULL)
if (res != 0)
{
printf("Read Thread creat Error!")
exit(0)
}
sleep(1)
printf("waiting for read thread to finish...\n")
res = pthread_join(read_thread, NULL)
if (res != 0)
{
printf("read thread join failed!\n")
exit(0)
}
printf("read thread test OK, have fun!! exit ByeBye\n")
return 0
}
void *read_buffer_thread(void *arg)
{
int i,x
printf("Read buffer thread read data : \n")
for(i=0i<20i++)
{
x=globe_buffer[i]
printf("%d ",x)
globe_buffer[i]=0//清空
}
printf("\nread over\n")
}
---------------------------------------------------------------------------------
以上程序编译:
gcc -D_REENTRANT test.c -o test.o –lpthread
运行这个程序:
$ ./test.o:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)