在Linux系统中使用Shell实现多线程运行任务（多任务并发执行） 2022-05-30_系统运维

最近，有一批任务需要把两批的fastq合并到一起并压缩成一个fastq文件才能继续往下做，由于存储空间有限又不能直接全部跑上，只能按样本逐个分批跑。众所周知，一般fastq是成对存在的，所需要对read1和read2分别合并一次，然而这次任务的fastq文件比较大，合并然后压缩一次需要1天左右，那对于一组fastq就要2-3天，这也太耗时间了，所以我在想能不能read1和read2 同时跑上，这就可以节省一半的时间了。

平时也能遇到很多类似的任务，特别是在进程数有限的情况下，如果这些小任务单独占用一个进程，而任务很多就很耗时间，如果能在一个进程下实现多个线程并行执行，就能大大提高运行效率。关于进程和线程的知识可以参考知乎的这篇文章【 Shell“ 多线程”，提高工作效率】，整理的也比较有条理，能比较容易读懂。

当然，某些博主也写过类似的文章，例如这篇【 shell后台限制多并发控制后台任务强度进行文件拷贝】但是实在是太高深莫测了，看不懂，一时半会儿也学不会。本文将示例Shell实现多线程的简单版本，其实不用太复杂。

其实只需要两个步骤，第一步是给需要并行运行的命令行在结尾加上"&"，代表放到后台运行，第二步是在在所有并行任务的后面加上一句“wait”，意思是等所有通过“&”放到后台运行的任务跑完后再继续执行后面的任务，这些就能实现所有带有“&”的行并行执行了。

看完脚本是不是觉得很简单？

上面的脚本适合并行任务少的，可以手动加&和wait，但是如果有几十个甚至上百个的小任务就比较麻烦了。但不用担心，可以写个循环，批量运行。

循环的结果也是跟上面类似的，只是多了个循环结构。

如果需要执行的任务只有一行，可以把大括号去掉。

关于for和while的循环可以查看之前的文章【 Shell常用循环示例（for和while批量处理）2022-05-25 】

需要注意的是多线程并行还是需要有限制的，毕竟都是在一个进程里运行，如果线程太多了会卡顿的，建议控制在100个以内，当然还有毕竟高级和复杂的方法可以实现限制。因为上面的脚本已经够我用了，没继续往下学，以后可以再补充。

pthread_create执行后，如果执行成功会生成一个子线程也就是现在有两个线程同时运行

父线程还会继续执行后面的代码直到结束

子线程则开始执行thread函数体里的代码了别的不执行

pthread_join会按照父线程执行顺序到它了就会执行该函数的作用是阻塞等待一个线程执行完毕

在你的代码里不一定在子线程执行3次后才启动也可能子线程没有执行呢父线程就执行到pthread_join了然后阻塞等待子线程

如果你想让pthread_join在子线程3次执行后才启动可以让父线程sleep下不过子线程执行完了你再执行pthread_join也就没有什么意义了

不懂再问

Intel 的超线程技术通过复制、分区和共享 Intel NetBurst 微体系结构管道中的资源，使得一个物理处理器能包含两个逻辑处理器。

被复制的资源为两个线程创建了资源副本：

每个 CPU 的所有体系结构状态

指令指针，重命名逻辑

一些较小的资源(例如返回堆栈预测器、ITLB 等)

已分区的资源划分执行线程之间的资源：

几个缓冲区(Re-Order 缓冲区、Load/Store 缓冲区、队列等)

共享的资源按需在两个正在执行的线程之间使用资源：

乱序执行引擎

高速缓存

通常，每个物理处理器在一个处理器核心上都有一个体系结构状态，来为线程提供服务。使用了 HT，每个物理处理器在单个核心上就有两个体系结构状态，这使得物理处理器看起来象有两个逻辑处理器在为线程提供服务。系统 BIOS 列举出物理处理器中的每个体系结构状态。由于支持超线程的 *** 作系统利用了逻辑处理器，因此这些 *** 作系统就有两倍的资源可用于为线程提供服务。

Xeon 处理器中的超线程支持

在通用处理器中 Xeon 处理器最先实现同步多线程(SMT)(请参阅参考资料以获取有关 Xeon 处理器系列的更多信息)。为达到在单一物理处理器上执行两个线程的目标，该处理器同时维持多个线程的上下文，这允许调度程序并发分派两个可能无关的线程。

*** 作系统(OS)将多个线程代码调度和分派给每个逻辑处理器，就如同在 SMP 系统中。没有分派线程时，相关的逻辑处理器保持空闲。

当将一个线程调度和分派给逻辑处理器 LP0 时，超线程技术利用必需的处理器资源来执行该线程。

当将第二个线程调度和分派给第二个逻辑处理器 LP1 时，就要按需为执行该线程而复制、划分或共享资源。每个处理器都在管道各点上进行选择，以控制和处理这些线程。当每个线程完成时， *** 作系统将未用的处理器置为空闲，释放资源让正在运行的处理器使用。

OS 将线程调度和分派给每个逻辑处理器，就好像是在双处理器或多处理器系统中进行的那样。当系统调度线程并将之引入到管道中时，按需利用资源以处理这两个线程。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/8303232.html

在Linux系统中使用Shell实现多线程运行任务（多任务并发执行） 2022-05-30

发表评论

评论列表（0条）