如何1分钟内对 Linux 性能快速分析（113资讯网）_投稿

当你在IDC主机商购买一台系统为 Linux 服务器之后，我想大家第一时间就是对主机进行一个性能分析，这里我跟大家分享几个命令，能让大家在一分钟以内对自己的性能有一个大致的鸟解?

uptime

dmesg | tail

vmstat 1

mpstat -P ALL 1

pidstat 1

iostat -xz 1

free -m

sar -n DEV 1

sar -n TCP,ETCP 1

top

这10个命令到底是什么意思，我为大家一一解释一下：

1.uptime

# uptime

03:16:26 up 21:31, 1 user, load average: 10.02, 06.43, 09.02

在上面的例子中，平均负载显示是在不断增加的，1 分钟的值是 10，相比 15 分钟的值 09 来说是增加了。这个数字这么大就意味着有事情发生了.

2. dmesg | tail

# dmesg | tail

[ 14.102501] ISO 9660 Extensions: RRIP_1991A

[ 15.900216] ISO 9660 Extensions: Microsoft Joliet Level 3

[ 15.900234] ISO 9660 Extensions: RRIP_1991A

[ 17.030540] EXT4-fs (vda1): resizing filesystem from 5242619 to 13106939 blocks

[ 17.151434] random: crng init done

[ 17.151436] random: 7 urandom warning(s) missed due to ratelimiting

[ 18.314268] EXT4-fs (vda1): resized filesystem to 13106939

[ 20.394666] new mount options do not match the existing superblock, will be ignored

[ 38.405804] ISO 9660 Extensions: Microsoft Joliet Level 3

[ 38.407599] ISO 9660 Extensions: RRIP_1991A

这里展示的是最近 10 条系统消息日志，如果系统消息没有就不会展示。主要是看由于性能问题导致的错误。

3. vmstat 1

# vmstat 1

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----

r b swpd free buff cache si so bi bo in cs us sy id wa st

1 0 0 324644 141184 1270628 0 0 10 40 207 431 1 1 99 0 0

0 0 0 324388 141184 1270628 0 0 0 0 130 280 1 1 98 0 0

0 0 0 324388 141184 1270628 0 0 0 0 89 169 0 0 100 0 0

0 0 0 324420 141184 1270628 0 0 0 0 118 225 1 0 99 0 0

0 0 0 324420 141184 1270628 0 0 0 32 125 254 0 0 99 1 0

1 1 0 324420 141184 1270628 0 0 0 68 96 171 0 0 96 4 0

0 0 0 324452 141184 1270628 0 0 0 184 127 166 0 1 96 3 0

r: CPU 上的等待运行的可运行进程数。这个指标提供了判断 CPU 饱和度的数据，因为它不包含 I/O 等待的进程。可解释为：“r” 的值比 CPU 数大的时候就是饱和的。

free：空闲内存，单位是 k。如果这个数比较大，就说明你还有充足的空闲内存。“free -m” 和下面第 7 个命令，可以更详细的分析空闲内存的状态。

si，so：交换进来和交换出去的数据量，如果这两个值为非 0 值，那么就说明没有内存了。

us，sy，id，wa，st：这些是 CPU 时间的分解，是所有 CPU 的平均值。它们是用户时间，系统时间（内核），空闲，等待 I/O 时间，和被偷的时间（这里主要指其它的客户，或者使用 Xen，这些客户有自己独立的 *** 作域）。

4. mpstat -P ALL 1

# mpstat -P ALL 1

Linux 4.15.0-88-generic (VM-0-17-ubuntu) 06/15/2020 _x86_64_ (1 CPU)

03:33:26 AM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle

03:33:27 AM all 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 99.00

03:33:27 AM 0 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 99.00

这个命令打印各个 CPU 的时间统计，可以看出整体 CPU 的使用是不是均衡的。由于我使用的是1H2G主机看不出区别！

5. pidstat 1

# pidstat 1

Linux 4.15.0-88-generic (VM-0-17-ubuntu) 06/15/2020 _x86_64_ (1 CPU)

03:34:47 AM UID PID %usr %system %guest %wait %CPU CPU Command

03:34:48 AM 0 1120 1.00 0.00 0.00 0.00 1.00 0 sshd

pidstat 命令为每个 CPU 统计信息功能。由于我使用的是1H2G主机看不出区别！

6. iostat -xz 1

# iostat -xz 1

Linux 4.15.0-88-generic (VM-0-17-ubuntu) 06/15/2020 _x86_64_ (1 CPU)

avg-cpu: %user %nice %system %iowait %steal %idle

0.67 0.01 0.52 0.29 0.00 98.52

Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util

loop0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.22 0.00 0.00 9.64 0.00 0.00 0.00

scd0 0.02 0.00 0.48 0.00 0.00 0.00 0.00 0.00 0.21 0.00 0.00 27.72 0.00 0.19 0.00

vda 0.64 4.07 9.15 40.59 0.00 1.99 0.00 32.85 3.58 2.31 0.01 14.31 9.96 0.24 0.11

avg-cpu: %user %nice %system %iowait %steal %idle

0.00 0.00 0.00 0.00 0.00 100.00

Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util

r/s, w/s, rkB/s, wkB/s：这些表示设备上每秒钟的读写次数和读写的字节数（单位是k字节）。这些可以看出设备的负载情况。性能问题可能就是简单的因为大量的文件加载请求。

await：I/O 等待的平均时间（单位是毫秒）。这是应用程序所等待的时间，包含了等待队列中的时间和被调度服务的时间。过大的平均等待时间就预示着设备超负荷了或者说设备有问题了。

avgqu-sz：设备上请求的平均数。数值大于 1 可能表示设备饱和了（虽然设备通常都是可以支持并行请求的，特别是在背后挂了多个磁盘的虚拟设备）。

%util：设备利用率。是使用率的百分数，展示每秒钟设备工作的时间。这个数值大于 60% 则会导致性能很低（可以在 await 中看），当然这也取决于设备特点。这个数值接近 100% 则表示设备饱和了。

7. free -m/h

ubuntu@VM-0-17-ubuntu:~# free -m

total used free shared buff/cache available

Mem: 1833 137 313 5 1381 1506

Swap: 0 0 0

ubuntu@VM-0-17-ubuntu:~$ free -h

total used free shared buff/cache available

Mem: 1.8G 139M 311M 5.8M 1.3G 1.5G

Swap: 0B 0B 0B

这个命令我相信大家都熟悉，buffers：用于块设备 I/O 缓冲的缓存，cached：用于文件系统的页缓存。

8. sar -n DEV 1

ubuntu@VM-0-17-ubuntu:~# sar -n DEV 1

Linux 4.15.0-88-generic (VM-0-17-ubuntu) 06/15/2020 _x86_64_ (1 CPU)

03:43:35 AM IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s %ifutil

03:43:36 AM eth0 11.00 10.00 0.79 1.06 0.00 0.00 0.00 0.00

03:43:36 AM lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

使用这个工具是可以检测网络接口的吞吐：rxkB/s 和 txkB/s，作为收发数据负载的度量，也是检测是否达到收发极限。在上面这个例子中，eth0 接收数据达到 0.79 kb 字节/秒，发送数据达到1.06 字节/秒。

9. sar -n TCP,ETCP 1

ubuntu@VM-0-17-ubuntu:~# sar -n TCP,ETCP 1

Linux 4.15.0-88-generic (VM-0-17-ubuntu) 06/15/2020 _x86_64_ (1 CPU)

03:49:56 AM active/s passive/s iseg/s oseg/s

03:49:57 AM 0.00 0.00 5.05 3.03

03:49:56 AM atmptf/s estres/s retrans/s isegerr/s orsts/s

03:49:57 AM 0.00 0.00 0.00 0.00 0.00

这是对 TCP 关键指标的统计，它包含了以下内容：

active/s：每秒本地发起的 TCP 连接数（例如通过 connect() 发起的连接）。

passive/s：每秒远程发起的连接数（例如通过 accept() 接受的连接）。

retrans/s：每秒TCP重传数。

10. top

ubuntu@VM-0-17-ubuntu:~# top

top - 03:53:20 up 1 day, 1:41, 1 user, load average: 0.01, 0.04, 0.00

Tasks: 89 total, 1 running, 52 sleeping, 0 stopped, 0 zombie

%Cpu(s): 0.3 us, 0.3 sy, 0.0 ni, 99.3 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st

KiB Mem : 1877076 total, 317436 free, 143420 used, 1416220 buff/cache

KiB Swap: 0 total, 0 free, 0 used. 1540856 avail Mem

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND

3730 root 20 0 105688 6812 5840 S 0.3 0.4 0:00.01 sshd

7546 root 20 0 644608 14924 6776 S 0.3 0.8 2:48.99 YDService

1 root 20 0 159892 9260 6796 S 0.0 0.5 0:06.45 systemd

2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd

4 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 kworker/0:0H

6 root 0 -20 0 0 0 I 0.0 0.0 0:00.00 mm_percpu_wq

7 root 20 0 0 0 0 S 0.0 0.0 0:04.29 ksoftirqd/0

8 root 20 0 0 0 0 I 0.0 0.0 0:08.85 rcu_sched

9 root 20 0 0 0 0 I 0.0 0.0 0:00.00 rcu_bh

10 root rt 0 0 0 0 S 0.0 0.0 0:00.00 migration/0

11 root rt 0 0 0 0 S 0.0 0.0 0:00.16 watchdog/0

12 root 20 0 0 0 0 S 0.0 0.0 0:00.00 cpuhp/0

13 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kdevtmpfs

top 命令包含了很多我们前面提到的指标。这个命令可以很容易看出指标的变化表示负载的变化，这个看起来和前面的命令有很大不同。

top 的一个缺陷也比较明显，很难看出变化趋势，其它像 vmstat 和 pidstat 这样的工具就会很清晰，它们是以滚动的方式输出统计信息。所以如果你在看到有问题的信息时没有及时的暂停下来（Ctrl-S 是暂停, Ctrl-Q 是继续），那么这些有用的信息就会被清屏。

文章原文： https://www.113p.cn/129.html （来都来了，就去我博客看下！！）

本文先介绍了cpu上下文切换的基础知识，以及上下文切换的类型（进程，线程等切换）。然后介绍了如何查看cpu切换次数的工具和指标的解释。同时对日常分析种cpu过高的情况下如何分析和定位的方法做了一定的介绍，使用一个简单的案例进行分析，先用top，pidstat等工具找出占用过高的进程id，然后通过分析到底是用户态cpu过高，还是内核态cpu过高，并用perf 定位到具体的调用函数。（来自极客时间课程学习笔记）

1、多任务竞争CPU，cpu变换任务的时候进行CPU上下文切换(context switch)。CPU执行任务有4种方式：进程、线程、或者硬件通过触发信号导致中断的调用。

2、当切换任务的时候，需要记录任务当前的状态和获取下一任务的信息和地址(指针)，这就是上下文的内容。因此，上下文是指某一时间点CPU寄存器(CPU register)和程序计数器(PC)的内容, 广义上还包括内存中进程的虚拟地址映射信息.

3、上下文切换的过程：

4、根据任务的执行形式，相应的下上文切换，有进程上下文切换、线程上下文切换、以及中断上下文切换三类。

5、进程和线程的区别：

进程是资源分配和执行的基本单位；线程是任务调度和运行的基本单位。线程没有资源，进程给指针提供虚拟内存、栈、变量等共享资源，而线程可以共享进程的资源。

6、进程上下文切换：是指从一个进程切换到另一个进程。

(1)进程运行态为内核运行态和进程运行态。内核空间态资源包括内核的堆栈、寄存器等；用户空间态资源包括虚拟内存、栈、变量、正文、数据等

(2)系统调用(软中断)在内核态完成的，需要进行2次CPU上下文切换(用户空间-->内核空间-->用户空间)，不涉及用户态资源，也不会切换进程。

(3)进程是由内核来管理和调度的，进程的切换只能发生在内核态。所以，进程的上下文不仅包括了用户空间的资源，也包括内核空间资源。

(4)进程的上下文切换过程：

(5)、下列将会触发进程上下文切换的场景：

7、线程上下文切换：

8、中断上下文切换

快速响应硬件的事件，中断处理会打断进程的正常调度和执行。同一CPU内，硬件中断优先级高于进程。切换过程类似于系统调用的时候，不涉及到用户运行态资源。但大量的中断上下文切换同样可能引发性能问题。

重点关注信息：

系统的就绪队列过长，也就是正在运行和等待 CPU 的进程数过多，导致了大量的上下文切换，而上下文切换又导致了系统 CPU 的占用率升高。

这个结果中有两列内容是我们的重点关注对象。一个是 cswch ，表示每秒自愿上下文切换（voluntary context switches）的次数，另一个则是 nvcswch ，表示每秒非自愿上下文切换（non voluntary context switches）的次数。

linux的中断使用情况可以从 /proc/interrupts 这个只读文件中读取。/proc 实际上是 Linux 的一个虚拟文件系统，用于内核空间与用户空间之间的通信。/proc/interrupts 就是这种通信机制的一部分，提供了一个只读的中断使用情况。

重调度中断（RES），这个中断类型表示，唤醒空闲状态的 CPU 来调度新的任务运行。这是多处理器系统（SMP）中，调度器用来分散任务到不同 CPU 的机制，通常也被称为处理器间中断（Inter-Processor Interrupts，IPI）。

这个数值其实取决于系统本身的 CPU 性能。如果系统的上下文切换次数比较稳定，那么从数百到一万以内，都应该算是正常的。但当上下文切换次数超过一万次，或者切换次数出现数量级的增长时，就很可能已经出现了性能问题。这时，需要根据上下文切换的类型，再做具体分析。

比方说：

首先通过uptime查看系统负载，然后使用mpstat结合pidstat来初步判断到底是cpu计算量大还是进程争抢过大或者是io过多，接着使用vmstat分析切换次数，以及切换类型，来进一步判断到底是io过多导致问题还是进程争抢激烈导致问题。

CPU 使用率相关的重要指标：

性能分析工具给出的都是间隔一段时间的平均 CPU 使用率，所以要注意间隔时间的设置，特别是用多个工具对比分析时，你一定要保证它们用的是相同的间隔时间。比如，对比一下 top 和 ps 这两个工具报告的 CPU 使用率，默认的结果很可能不一样，因为 top 默认使用 3 秒时间间隔，而 ps 使用的却是进程的整个生命周期。

top 和 ps 是最常用的性能分析工具：

这个输出结果中，第三行 %Cpu 就是系统的 CPU 使用率，top 默认显示的是所有 CPU 的平均值，这个时候你只需要按下数字 1 ，就可以切换到每个 CPU 的使用率了。继续往下看，空白行之后是进程的实时信息，每个进程都有一个 %CPU 列，表示进程的 CPU 使用率。它是用户态和内核态 CPU 使用率的总和，包括进程用户空间使用的 CPU、通过系统调用执行的内核空间 CPU 、以及在就绪队列等待运行的 CPU。在虚拟化环境中，它还包括了运行虚拟机占用的 CPU。

预先安装 stress 和 sysstat 包，如 apt install stress sysstat。

stress 是一个 Linux 系统压力测试工具，这里我们用作异常进程模拟平均负载升高的场景。而 sysstat 包含了常用的 Linux 性能工具，用来监控和分析系统的性能。我们的案例会用到这个包的两个命令 mpstat 和 pidstat。

下面的 pidstat 命令，就间隔 1 秒展示了进程的 5 组 CPU 使用率，

包括：

perf 是 Linux 2.6.31 以后内置的性能分析工具。它以性能事件采样为基础，不仅可以分析系统的各种事件和内核性能，还可以用来分析指定应用程序的性能问题。

第一种常见用法是 perf top，类似于 top，它能够实时显示占用 CPU 时钟最多的函数或者指令，因此可以用来查找热点函数，使用界面如下所示：

输出结果中，第一行包含三个数据，分别是采样数（Samples）如2K、事件类型（event）如cpu-clock:pppH和事件总数量（Event count）如：371909314。

第二种常见用法，也就是 perf record 和 perf report。 perf top 虽然实时展示了系统的性能信息，但它的缺点是并不保存数据，也就无法用于离线或者后续的分析。而 perf record 则提供了保存数据的功能，保存后的数据，需要你用 perf report 解析展示。

1.启动docker 运行进程：

2.ab工具测试服务器性能

ab（apache bench）是一个常用的 HTTP 服务性能测试工具，这里用来模拟 Ngnix 的客户端。

3.分析过程

CPU 使用率是最直观和最常用的系统性能指标，在排查性能问题时，通常会关注的第一个指标。所以更要熟悉它的含义，尤其要弄清楚:

这几种不同 CPU 的使用率。比如说：

碰到 CPU 使用率升高的问题，你可以借助 top、pidstat 等工具，确认引发 CPU 性能问题的来源；再使用 perf 等工具，排查出引起性能问题的具体函数.

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/6083540.html

如何1分钟内对 Linux 性能快速分析（113资讯网）

发表评论

评论列表（0条）