C++ openmp并行程序在多核linux上如何最大化使用cpu_软件运维

openmp并行程序在多核linux上最大化使用cpu的方法如下：

#include <stdio.h>

#include <stdlib.h>

#include <omp.h>

#include <time.h>

int main()

{

long long i

long double sum = .0

long double sec = .0

// Multi-thread compute start

clock_t t1 = clock()

#pragma omp parallel for

for (i = 0 i < 1000000000 i++)

{

sum += i/100

}

clock_t t2 = clock()

sec = (t2 - t1)

//sec = (t2 - t1)

printf("Program costs %.2Lf clock tick.\n", sec)

exit(EXIT_SUCCESS)

}

以上代码中，#pragma omp parallel for

这一行的作用即是调用openmp的功能，根据检测到的CPU核心数目，将for (i = 0i <1000000000i++)这个循环执行过程平均分配给每一个CPU核心。

去掉#pragma omp parallel for这行，则和普通的串行代码效果一致。

注意，要使用openmp功能，在编译的时候需要加上-fopenmp编译参数。

以下是两种编译搭配两种代码出现的4种结果，可以很直观地看到效果：

1、代码里含有#pragma omp parallel for，编译参数有-fopenmp

Endys-MacBook-Pro:Desktop endy$ vi test.c

Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test -fopenmp

Endys-MacBook-Pro:Desktop endy$ ./test

Program costs 50202611.00 clock tick.

2、代码里含有#pragma omp parallel for，编译参数没有-fopenmp

Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test

Endys-MacBook-Pro:Desktop endy$ ./test

Program costs 4068178.00 clock tick.

3、代码里没有#pragma omp parallel for，编译参数有-fopenmp

Endys-MacBook-Pro:Desktop endy$ vi test.c

Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test -fopenmp

Endys-MacBook-Pro:Desktop endy$ ./test

Program costs 4090744.00 clock tick.

4、代码里没有#pragma omp parallel for，编译参数没有-fopenmp

Endys-MacBook-Pro:Desktop endy$ vi test.c

Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test

Endys-MacBook-Pro:Desktop endy$ ./test

Program costs 4170093.00 clock tick.

可以看出，只有在情况1下，openmp生效，其他3种情况下，均为单核运行，2、3、4结果较为接近，而1的运行结果大约相差25%。

值得注意的是，使用多核心的case 1竟然比单核的其他3种case慢了25%，原因是在这种单一的循环运算中，并行分配CPU任务的指令比直接执行下一个循环指令的效率更低。所以并不是用并行运算就一定能够提高运算效率的，要根据实际情况来判断。

一，使用taskset充分利用多核cpu，让cpu的使用率均衡到每个cpu上

#taskset

-p,设定一个已存在的pid，而不是重新开启一个新任务

-c,指定一个处理，可以指定多个，以逗号分隔，也可指定范围，如：2,4,5,6-8。

1，切换某个进程到指定的cpu上

taskset -cp 3 13290

2，让某程序运行在指定的cpu上

taskset -c 1,2,4-7 tar jcf test.tar.gz test

需要注意的是，taskset -cp 3 13290在设定一个已经存在的pid时，子进程并不会继承父进程的，

因此像tar zcf xxx.tar.gz xxx这样的命令，最好在启动时指定cpu，如果在已经启动的情况下，则需要指定tar调用的gzip进程。

二，使用nice和renice设置程序执行的优先级

格式：nice [-n 数值] 命令

nice 指令可以改变程序执行的优先权等级。指令让使用者在执行程序时，指定一个优先等级，称之为 nice 值。

这个数值从最高优先级的-20到最低优先级的19。负数值只有 root 才有权力使。

一般使用者，也可使用 nice 指令来做执行程序的优先级管理，但只能将nice值越调越高。

可以通过二种方式来给某个程序设定nice值：

1，开始执行程序时给定一个nice值，用nice命令

2，调整某个运行中程序的PID的nice值，用renice命令

通常通过调高nice值来备份，为的是不占用非常多的系统资源。

例：

nice -n 10 tar zcf test.tar.gz test

由nice启动的程序，其子进程会继承父进程的nice值。

查看nice值

# nice -n -6 vim test.txt &

# ps -l

F S UID PID PPID C PRI NI ADDR SZ WCHAN TTY TIME CMD

4 S 0 19427 2637 0 75 0 – 16551 wait pts/600:00:00 bash

4 T 0 21654 19427 0 71 -6 – 23464 finish pts/600:00:00 vim

renice调整运行中程序的nice值

格式：renice [nice值] PID

三，使用ulimit限制cpu占用时间

注意，ulimit 限制的是当前shell进程以及其派生的子进程。因此可以在脚本中调用ulimit来限制cpu使用时间。

例如，限制tar的cpu占用时间，单位秒。

# cat limit_cpu.sh

ulimit -SHt 100

tar test.tar.gz test

如果tar占用时间超过了100秒，tar将会退出，这可能会导致打包不完全，因此不推荐使用ulimit对cpu占用时间进行限制。

另外，通过修改系统的/etc/security/limits配置文件，可以针对用户进行限制。

四，使用程序自带的对cpu使用调整的功能

某些程序自带了对cpu使用调整的功能，比如nginx服务器，通过其配置文件，可以为工作进程指定cpu，如下：

worker_processes 3

worker_cpu_affinity 0001 0010 0100 1000

这里0001 0010 0100 1000是掩码，分别代表第1、2、3、4颗cpu核心，这就使得cpu的使用比较平均到每个核心上。

1. 使用taskset充分利用多核cpu,让cpu的使用率均衡到每个cpu上 #taskset -p, 设定一个已存在的pid,而不是重新开启一个新任务 -c

2. 使用nice和renice设置程序执行的优先级格式:nice

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12008433.html

C++ openmp并行程序在多核linux上如何最大化使用cpu

发表评论

评论列表（0条）