在Linux系统中使用Shell实现多线程运行任务（多任务并发执行） 2022-05-30_系统运维

最近，有一批任务需要把两批的fastq合并到一起并压缩成一个fastq文件才能继续往下做，由于存储空间有限又不能直接全部跑上，只能按样本逐个分批跑。众所周知，一般fastq是成对存在的，所需要对read1和read2分别合并一次，然而这次任务的fastq文件比较大，合并然后压缩一次需要1天左右，那对于一组fastq就要2-3天，这也太耗时间了，所以我在想能不能read1和read2 同时跑上，这就可以节省一半的时间了。

平时也能遇到很多类似的任务，特别是在进程数有限的情况下，如果这些小任务单独占用一个进程，而任务很多就很耗时间，如果能在一个进程下实现多个线程并行执行，就能大大提高运行效率。关于进程和线程的知识可以参考知乎的这篇文章【 Shell“ 多线程”，提高工作效率】，整理的也比较有条理，能比较容易读懂。

当然，某些博主也写过类似的文章，例如这篇【 shell后台限制多并发控制后台任务强度进行文件拷贝】但是实在是太高深莫测了，看不懂，一时半会儿也学不会。本文将示例Shell实现多线程的简单版本，其实不用太复杂。

其实只需要两个步骤，第一步是给需要并行运行的命令行在结尾加上"&"，代表放到后台运行，第二步是在在所有并行任务的后面加上一句“wait”，意思是等所有通过“&”放到后台运行的任务跑完后再继续执行后面的任务，这些就能实现所有带有“&”的行并行执行了。

看完脚本是不是觉得很简单？

上面的脚本适合并行任务少的，可以手动加&和wait，但是如果有几十个甚至上百个的小任务就比较麻烦了。但不用担心，可以写个循环，批量运行。

循环的结果也是跟上面类似的，只是多了个循环结构。

如果需要执行的任务只有一行，可以把大括号去掉。

关于for和while的循环可以查看之前的文章【 Shell常用循环示例（for和while批量处理）2022-05-25 】

需要注意的是多线程并行还是需要有限制的，毕竟都是在一个进程里运行，如果线程太多了会卡顿的，建议控制在100个以内，当然还有毕竟高级和复杂的方法可以实现限制。因为上面的脚本已经够我用了，没继续往下学，以后可以再补充。

一堆的错误，帮你改了。自己diff一下就明白了。

下次贴问题之前，请确保你的代码能执行……

另外，之所以是串行，是因为你根本就没有执行过文件里的命令，而永远是 sleep 同样长的时间，当然最终的效果就是串行，你可以改成 sleep 随机长的时间，或者确实的执行文件里的命令，就能看到并行效果了（确保命令做一些 IO *** 作，或者多核cpu)。

#!/bin/bash

if [ -z "$1" ]then

echo "Usage:`basename $0` filename(containing the cmd you want to execute)"

exit 1

else

if [ ! -f "$1" ]then

echo "The file \"$1\" you provide doesn't exist!"

exit 1

else

cmdfile=$1

jobnum=`cat $cmdfile|grep -v "^#"|grep -v "^[[:space:]]#"|wc -l`

line=`cat $cmdfile|wc -l`

#创建管道文件，并将其文件描述符设置为6，同时以读写的方式打开它

tmp_fifo="tmp$$.fifo"

mkfifo ${tmp_fifo}

exec 6<> ${tmp_fifo}

#限定线程数的上限

thread=3

for(( i=0i<$threadi++ ))

echo

done >&6

for(( j=0j<${line}j++ ))

read -u 6

{

read command

if [ -n "`echo $command|grep -v "^#"`" ] && [ -n "`echo $command|grep -v "[[:space:]]#"`" ]then

echo "[`date +"%Y%m%d %H:%M:%S"`]:command is $command,j is $j"

sleep 3

echo "[`date +"%Y%m%d %H:%M:%S"`]:job $j finishes successfully!">>/tmp/multpro_`date +%Y%m%d`.log

#作业完成后向管道文件写回一个按行符

echo >&6

done < "$cmdfile"

wait

exec 6<&-

rm ${tmp_fifo}

exit 0

程序代码test.c共两个线程，一个主线程，一个读缓存区的线程：

#include <pthread.h>

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

#include <unistd.h>

char globe_buffer[100]

void *read_buffer_thread(void *arg) //这里先声明一下读缓存的线程，具体实现写在后面了

int main()

{

int res,i

pthread_t read_thread

for(i=0i<20i++)

globe_buffer[i]=i

printf("\nTest thread : write buffer finish\n")

sleep(3)\\这里的3秒是多余，可以不要。

res = pthread_create(&read_thread, NULL, read_buffer_thread, NULL)

if (res != 0)

{

printf("Read Thread creat Error!")

exit(0)

}

sleep(1)

printf("waiting for read thread to finish...\n")

res = pthread_join(read_thread, NULL)

if (res != 0)

{

printf("read thread join failed!\n")

exit(0)

}

printf("read thread test OK, have fun!! exit ByeBye\n")

return 0

}

void *read_buffer_thread(void *arg)

{

int i,x

printf("Read buffer thread read data : \n")

for(i=0i<20i++)

{

x=globe_buffer[i]

printf("%d ",x)

globe_buffer[i]=0//清空

}

printf("\nread over\n")

}

---------------------------------------------------------------------------------

以上程序编译：

gcc -D_REENTRANT test.c -o test.o –lpthread

运行这个程序：

$ ./test.o：

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7634934.html

在Linux系统中使用Shell实现多线程运行任务（多任务并发执行） 2022-05-30

发表评论

评论列表（0条）