目标: 使用JDK自带的JVM监测工具调试内存使用情况及堆栈问题排查
简要说明: 在实际项目开发过程中,如果使用多线程,但是没有控制好线程数量的情况下,就会出现堆内存溢出问题,导致功能服务宕机,如果严重很可能导致服务器宕机问题。当出现内存溢出时,只能看到简单的内存溢出日志,排查问题毫无头绪,不知道哪里线程出现问题,这样就很难解决问题;
这时我们就可以通过JDK自带的JVM监控工具查看每个线程的生命周期以及相关源码追溯,这样就可以清楚明了的看清问题出现在哪里,然后根据实际情况解决问题;
通过上图可以看到本地服务中所有的线程及相关状态,如果线程出现问题需要排查时,需要查看具体执行的方法,那么就需要快照方式查看,具体方式如下:
点击抽样器,然后选择CPU抽样,点击停止,在点击下面的快照按钮,就可以获取所有所有线程的一次快照,然后就可以看到每个线程执行的源码,具体 *** 作如下图:
通过上述的 *** 作即可查看线程具体涉及的源码,从而排查问题!
上面说的是本地服务监测,但是有很多情况本地服务是排查不到问题的,只有在服务器上面才能看出问题,那么我们就需要远程连接服务器上面服务,进行监控,查看具体线程的运行情况及源码分析
远程配置需要在启动Java服务的时候,在启动命令上面添加指定启动参数,这里提供的命令是正常情况下完整的启动jar包的命令,具体命令参数也很清楚,命令如下:
ps:port是监控所需的端口,也就是启动服务指定的端口,但是端口要对外开放,一般的普通服务端口是不会对完开放的,这一点需要注意
hostname是对应监控的ip,我这里用的就是服务器ip,如果连接不上的情况下,可以尝试使用 hostname -i 获取的对应ip,具体情况具体分析
然后启动服务之后,选中远程右键添加远程主机,输入远程主机ip后确定即可,然后选择主机ip,右键添加JMX连接,输入设定的端口号,点击确定即可,然后就可以监控远程服务器了,接下来的查看线程的情况、监控服务情况及排查问题使用快照,就和上面本地的 *** 作一样了!
经过上述 *** 作就可以通过JDK自带的监控软件,进行监控Java程序的运行情况以及服务器的运行情况啦!
本人原著,如有问题欢迎大家指正,共同进步!
1、首先是对于CPU的说明
服务器CPU性能参数主要信息可以通过查看 /proc/cpuinfo 获得。具体查看指令及效果如下:
显示这台服务器上有2个物理CPU
显示这台服务器的物理核数为16个
显示运行模式为64位
显示为Intel(R) Xeon(R) Gold 6226R CPU @ 290GHz
命令:
显示此服务器的线程数为64
top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。top是一个动态显示过程,即可以通过用户按键来不断刷新当前状态如果在前台执行该命令,它将独占前台,直到用户终止该程序为止比较准确的说,top命令提供了实时的对系统处理器的状态监视它将显示系统中CPU最“敏感”的任务列表该命令可以按CPU使用内存使用和执行时间对任务进行排序;而且该命令的很多特性都可以通过交互式命令或者在个人定制文件中进行设定
1.命令格式:
top [参数]
2.命令功能:
显示当前系统正在执行的进程的相关信息,包括进程ID、内存占用率、CPU占用率等
3.命令参数:
-b 批处理
-c 显示完整的治命令
-I 忽略失效过程
-s 保密模式
-S 累积模式
-i<时间> 设置间隔时间
-u<用户名> 指定用户名
-p<进程号> 指定进程
-n<次数> 循环显示的次数
4.使用实例:
实例1:通过 Top 命令显示进程信息
命令:
统计信息区:
前五行是当前系统情况整体的统计信息区。下面我们看每一行信息的具体意义。
第一行,任务队列信息,同 uptime 命令的执行结果,具体参数说明情况如下:
10:38:58 — 当前系统时间
up 39 days, 19:47 — 系统已经运行了39天19小时47分钟(在这期间系统没有重启过的吆!)
1 users — 当前有1个用户登录系统
load average: 000, 000, 000 — load average后面的三个数分别是1分钟、5分钟、15分钟的负载情况。
load average数据是每隔5秒钟检查一次活跃的进程数,然后按特定算法计算出的数值。如果这个数除以逻辑CPU的数量,结果高于5的时候就表明系统在超负荷运转了。
第二行,Tasks — 任务(进程),具体信息说明如下:
系统现在共有769个进程,其中处于运行中的有1个,463个在休眠(sleep),stoped状态的有0个,zombie状态(僵尸)的有0个。
第三行,cpu状态信息,具体属性说明如下:
00%us — 用户空间占用CPU的百分比。
00% sy — 内核空间占用CPU的百分比。
00% ni — 改变过优先级的进程占用CPU的百分比
1000% id — 空闲CPU百分比
00% wa — IO等待占用CPU的百分比
00% hi — 硬中断(Hardware IRQ)占用CPU的百分比
00% si — 软中断(Software Interrupts)占用CPU的百分比
备注:在这里CPU的使用比率和windows概念不同,需要理解linux系统用户空间和内核空间的相关知识!
第四行,内存状态,具体信息如下:
65600012k total — 物理内存总量
1785256k used — 使用中的内存总量
62385920k free — 空闲内存总量
1428836k buffers — 缓存的内存量
第五行,swap交换分区信息,具体信息说明如下:
2097148k total — 交换区总量
918340k used — 使用的交换区总量
1178808k free — 空闲交换区总量
备注:
第四行中使用中的内存总量(used)指的是现在系统内核控制的内存数,空闲内存总量(free)是内核还未纳入其管控范围的数量。纳入内核管理的内存不见得都在使用中,还包括过去使用过的现在可以被重复利用的内存,内核并不把这些可被重新使用的内存交还到free中去,因此在linux上free内存会越来越少,但不用为此担心。
对于内存监控,在top里我们要时刻监控第五行swap交换分区的used,如果这个数值在不断的变化,说明内核在不断进行内存和swap的数据交换,这是真正的内存不够用了。
第六行,空行。
第七行以下:各进程(任务)的状态监控,项目列信息说明如下:
PID — 进程id
USER — 进程所有者
PR — 进程优先级
NI — nice值。负值表示高优先级,正值表示低优先级
VIRT — 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
RES — 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
SHR — 共享内存大小,单位kb
S — 进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
%CPU — 上次更新到现在的CPU时间占用百分比
%MEM — 进程使用的物理内存百分比
TIME+ — 进程使用的CPU时间总计,单位1/100秒
COMMAND — 进程名称(命令名/命令行)
或者通过 free 命令显示系统内存的使用情况,包括物理内存、交换内存(swap)和内核缓冲区内存。
命令:
显示我当前的服务器的物理内存是62G,其中交换内存是2个G,一共剩余是60G的
三、查看Linux内核当前的系统版本号
命令:
显示的当前的服务器Linux内核是Ubuntu系统,版本号是18046
要了解二者的区别与联系,首先得对进程与线程有一个宏观上的了解。进程,是并发执行的程序在执行过程中分配和管理资源的基本单位,是一个动态概念,竟争计算机系统资源的基本单位。每一个进程都有一个自己的地址空间,即进程空间或(虚空间)。进程空间的大小 只与处理机的位数有关,一个 16 位长处理机的进程空间大小为 216 ,而 32 位处理机的进程空间大小为 232 。进程至少有 5 种基本状态,它们是:初始态,执行态,等待状态,就绪状态,终止状态。
线程,在网络或多用户环境下,一个服务器通常需要接收大量且不确定数量用户的并发请求,为每一个请求都创建一个进程显然是行不通的,——无论是从系统资源开销方面或是响应用户请求的效率方面来看。因此, *** 作系统中线程的概念便被引进了。线程,是进程的一部分,一个没有线程的进程可以被看作是单线程的。线程有时又被称为轻权进程或轻量级进程,也是 CPU 调度的一个基本单位。
说到这里,我们对进程与线程都有了一个大体上的印象,现在开始说说二者大致的区别。
进程的执行过程是线状的,尽管中间会发生中断或暂停,但该进程所拥有的资源只为该线状执行过程服务。一旦发生进程上下文切换,这些资源都是要被保护起来的。这是进程宏观上的执行过程。而进程又可有单线程进程与多线程进程两种。我们知道,进程有 一个进程控制块 PCB ,相关程序段 和 该程序段对其进行 *** 作的数据结构集 这三部分,单线程进程的执行过程在宏观上是线性的,微观上也只有单一的执行过程;而多线程进程在宏观上的执行过程同样为线性的,但微观上却可以有多个执行 *** 作(线程),如不同代码片段以及相关的数据结构集。线程的改变只代表了 CPU 执行过程的改变,而没有发生进程所拥有的资源变化。出了 CPU 之外,计算机内的软硬件资源的分配与线程无关,线程只能共享它所属进程的资源。与进程控制表和 PCB 相似,每个线程也有自己的线程控制表 TCB ,而这个 TCB 中所保存的线程状态信息则要比 PCB 表少得多,这些信息主要是相关指针用堆栈(系统栈和用户栈),寄存器中的状态数据。进程拥有一个完整的虚拟地址空间,不依赖于线程而独立存在;反之,线程是进程的一部分,没有自己的地址空间,与进程内的其他线程一起共享分配给该进程的所有资源。
线程可以有效地提高系统的执行效率,但并不是在所有计算机系统中都是适用的,如某些很少做进程调度和切换的实时系统。使用线程的好处是有多个任务需要处理机处理时,减少处理机的切换时间;而且,线程的创建和结束所需要的系统开销也比进程的创建和结束要小得多。最适用使用线程的系统是多处理机系统和网络系统或分布式系统。
———————————-
1 线程的执行特性。
线程只有 3 个基本状态:就绪,执行,阻塞。
线程存在 5 种基本 *** 作来切换线程的状态:派生,阻塞,激活,调度,结束。
2 进程通信。
单机系统中进程通信有 4 种形式:主从式,会话式,消息或邮箱机制,共享存储区方式。
主从式典型例子:终端控制进程和终端进程。
会话式典型例子:用户进程与磁盘管理进程之间的通信。
———————————-
参考书籍:计算机 *** 作系统教程(第 3 版)清华大学出版社张尧学 史美林 张高
在java编程中就经常用到进程和线程的概念。
1、线程:程序中单独顺序的控制流
线程本身依靠进程运行,不能独立存在,线程是进程中的顺序控制流,只能使用系统分配给进程的资源和环境,线程没有独立的地址空间。
2、进程:执行中的程序
系统会为每个进程创建一个PID,一个进程可以包含一个或多个线程,一个进程至少包含一个线程,每个线程也会有自己的ID,但是这只是在它所属的进程之内,不属于系统ID。
3、单线程:程序中只存在一个线程,实际上函数运行的主方法就是一个主线程
4、多线程:就是在一个进程中运行多个任务,多线程的目的是为了更好地使用CPU资源。
前台和后台
我们这里也要注意前台和后台的区别,前台一般就是我们能够看到的正在执行的程序,一般系统的很多服务都是以后台的形式存在,也就是我们看不到它们在执行,但是它们一般都会常驻在系统中,直到关机才会结束。
linux中查看进程的ps和top
ps指令主要是用来查看目前系统中,有哪些进程正在执行,以及他们执行的状况。
ps -a 显示当前终端的所有进程信息
ps -u 以用户的格式显示进程信息
ps -x 显示后台进程运行的参数123
可以根据进程的PID来终止进程
kill 进程PIDkill -9 进程PID //强制终止进程12
此外可以使用killall命令以名字的方式来杀死进程
进程动态监控top
1、监视特定用户
先执行top命令,再输入u,之后再输入需要监视的用户,然后回车即可,你将会看到显示的进程都是你所指定的用户正在运行的程序
2、杀死特定进程
先执行top命令,再输入k,再输入你要杀死的进程ID,然后回车即可。
3、指定动态刷新时间
top -d 10 //指定系统更新进程的时间为10秒1
PS:我们从top显示的内容可以获取一些有用的信息,其中zombie代表的是僵尸进程,即计算机无法回收内存的进程,Load average显示的是当前计算机负载情况,当这些值很高的时候说明计算机CPU占用率很高,需要注意。还有显示了计算机存储空间的使用情况。其中PID=1的进程是系统初始运行的总进程,很多进程都是由它开启的,这是一个特别重要的进程。
监控网络状态信息
显示网络统计信息的命令netstat,此命令用来显示整个系统目前的网络情况,例如目前的链接,数据包传递数据或是路由表内容。
netstat -an //按一定顺序排列netstat -anp //加上p就会显示进程号和相关程序12
显示数据包经历历程命令
traceroute 域名或者IP1
特别要注意在windows下面该命令是tracert
route命令用于显示和 *** 作IP路由表如何通过命令行查看memcache当前运
命令行下查看memcache的运行状态的命令主要是stats命令,步骤如下:
(1)首先通过telnet命令连接上memcache,命令:telnet 127001 11211
(2)直接输入stats 就可以得到当前memcache的状态。
对于memcache的状态各英文的意思做如下解释:
pid memcache服务器的进程ID
uptime 服务器已经运行的秒数
time 服务器当前的unix时间戳
version memcache版本
pointer_size 当前 *** 作系统的指针大小(32位系统一般是32bit)
rusage_user 进程的累计用户时间
rusage_system 进程的累计系统时间
curr_items 服务器当前存储的items数量
total_items 从服务器启动以后存储的items总数量
bytes 当前服务器存储items占用的字节数
curr_connections 当前打开着的连接数
total_connections 从服务器启动以后曾经打开过的连接数
connection_structures 服务器分配的连接构造数
cmd_get get命令(获取)总请求次数
cmd_set set命令(保存)总请求次数
get_hits 总命中次数
get_misses 总未命中次数
evictions 为获取空闲内存而删除的items数(分配给memcache的空间用满后需要删除旧的items来得到空间分配给新的items)
bytes_read 总读取字节数(请求字节数)
bytes_written 总发送字节数(结果字节数)
limit_maxbytes 分配给memcache的内存大小(字节)
threads 当前线程数
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)