嵌入式Linux系统下 如何在CPU占用率过高的时候重启

嵌入式Linux系统下 如何在CPU占用率过高的时候重启,第1张

用脚本就可以搞定的! 当发现CPU占用率过高时,会自动重启相关程序。。

# 设置最大内存占用百分比

PID_MEM_MAX=”85″

# 设置最大系统负载

SYS_LOAD_MAX=”1″

# 设置需要监控的服务名称

NAME_LIST=”php5-cgi mysql”

for NAME in $NAME_LIST

do

# 初始化内存统计

PID_MEM_SUM=0

# 获取该程序总进程数

PID_NUM_SUM=`ps aux | grep $NAME | wc -l`

# 列出每个进程内存占用百分比

PID_MEM_LIST=`ps aux | grep $NAME | awk ‘{print $4}’`

# 计算所有进程总内存占用

for PID_MEM in $PID_MEM_LIST

do

PID_MEM_SUM=`echo $PID_MEM_SUM + $PID_MEM | bc`

done

# 获取最近一分钟系统负载

SYS_LOAD=`uptime | awk ‘{print $(NF-2)}’ | sed ‘s/,//’`

# 比较内存占用和系统负载是否超过阀值

    MEM_VULE=`awk ‘BEGIN{print(‘”$PID_MEM_SUM”‘>=’”$PID_MEM_MAX”‘?”1″:”0″)}’`

    LOAD_VULE=`awk ‘BEGIN{print(‘”$SYS_LOAD”‘>=’”$SYS_LOAD_MAX”‘?”1″:”0″)}’`

# 如果系统内存占用和系统负载超过阀值,则进行下面 *** 作。

    if [ $MEM_VULE = 1 ] || [ $LOAD_VULE = 1 ] then

# 写入日志

    echo $(date +”%y-%m-%d %H:%M:%S”) “killall $NAME” “(MEM:$PID_MEM_SUM,LOAD:$SYS_LOAD)”>> /var/log/autoreboot.log

# 正常停止服务

    /etc/init.d/$NAME stop

    sleep 3

# 强制关闭

    pkill $NAME

# 重启

    /etc/init.d/$NAME start

#写入日志

    echo $(date +”%y-%m-%d %H:%M:%S”) “start $NAME” “(MEM:$PID_MEM_SUM,LOAD:$SYS_LOAD)” >> /var/log/autoreboot.log

    else

    echo “$NAME very health!(MEM:$PID_MEM_SUM,LOAD:$SYS_LOAD)” > /dev/null

    fi

    done

    以上代码保存为一个文件,例如:auto_reboot.sh

    添加计划任务,设置每分钟检查一次(注意文件的位置要搞正确)

    crontab -e

    * * * * * /bin/bash/root/auto_reboot.sh

    请确保您的Linux系统中已经安装了bc,否则会出现错误。查看是否安装了bc可以使用命令:

    bc -v

    如果没有安装,centos可以用 yum -y install bc 安装,然后执行命令:

    sh /bin/bash/root/auto_reboot.sh

    CentOS VPS服务器根据CPU负载及内存占用自动重启的bash shell脚本:

# !/bin/sh

# usage: */2 * * * * root /root/checkload.sh

# [CentOS]VPS服务器根据CPU负载及内存占用自动重启脚本

# 设置最小剩余内存,一般至少要剩余50M可用(单位兆)

    FREE_MEM_MIN=”50″

# 设置最大系统负载

    SYS_LOAD_MAX=”3″

# 设置重启服务的最小剩余内存(单位兆)

    RESTART_FREE_MEM_MIN=”500″

# 设置需要监控的服务名称

    NAME_LIST=”httpd mysqld”

    for NAME in $NAME_LIST

    do

# 获得剩余内存(单位兆)

    FREE_MEM=`free -m|grep Mem|awk ‘{print $4}’`

# 获得已用内存(单位兆)

#   FREE_MEM=`free -m|grep Mem|awk ‘{print $3}’`

# 获取最近一分钟系统负载

    SYS_LOAD=`uptime | awk ‘{print $(NF-2)}’ | sed ‘s/,//’`

# 比较内存占用和系统负载是否超过阀值

    MEM_VULE=`awk ‘BEGIN{print(‘”$FREE_MEM”‘<’”$FREE_MEM_MIN”‘?”1″:”0″)}’`

    LOAD_VULE=`awk ‘BEGIN{print(‘”$SYS_LOAD”‘>=’”$SYS_LOAD_MAX”‘?”1″:”0″)}’`

# 测试结果

# LOAD_VULE=”1″

# echo $(date +”%y-%m-%d %H:%M:%S”) “DEBUG $NAME”   “(FREE_MEM:$FREE_MEM|$MEM_VULE,LOAD:$SYS_LOAD|$LOAD_VULE)”>> /var/log/autoreboot_debug.log

# 如果系统内存占用和系统负载超过阀值,则进行下面 *** 作。

    if [ $MEM_VULE = 1 ] || [ $LOAD_VULE = 1 ] then

# 写入日志

    echo $(date +”%y-%m-%d %H:%M:%S”) “killall $NAME” “(FREE_MEM:$FREE_MEM,LOAD:$SYS_LOAD)”>> /var/log/autoreboot.log

# 正常停止服务

    service $NAME stop

    sleep 3

# 强制关闭

    skill $NAME

# 重启

    sleep 10

    for i in 1 2 3

    do

    FREE_MEM=`free -m|grep Mem|awk ‘{print $4}’`

    MEM_VULE=`awk ‘BEGIN{print(‘”$FREE_MEM”‘>=’”$RESTART_FREE_MEM_MIN”‘?”1″:”0″)}’`

    if [ `pgrep $NAME | wc -l` -le 0 ] && [ $MEM_VULE = 1 ]

    then

    service $NAME start

    sleep 15

    echo “AutoStart:” $(date +”%y-%m-%d %H:%M:%S”) “start $NAME” `ps -ef | grep $NAME | wc -l` > /var/log/autoreboot.log

    fi

    done

# 写入日志

    echo $(date +”%y-%m-%d %H:%M:%S”) “start $NAME” “(FREE_MEM:$FREE_MEM,LOAD:$SYS_LOAD)” >> /var/log/autoreboot.log

    else

    MEM_VULE=`awk ‘BEGIN{print(‘”$FREE_MEM”‘>=’”$RESTART_FREE_MEM_MIN”‘?”1″:”0″)}’`

    if [ `pgrep $NAME | wc -l` -le 0 ] && [ $MEM_VULE = 1 ]

    then

    service $NAME start

    sleep 15

    echo “AutoStart:” $(date +”%y-%m-%d %H:%M:%S”) “start $NAME” `ps -ef | grep $NAME | wc -l` > /var/log/autoreboot.log

    else

    echo “$NAME very health!(FREE_MEM:$FREE_MEM,LOAD:$SYS_LOAD)” > /dev/null

    fi

    fi

    done

在Linux系统中,我们经常用free命令来查看系统内存的使用状态。

默认显示单位是kb,我的服务器是128G内存,所以数字显得比较大。这个命令几乎是每一个使用过Linux的人必会的命令,但越是这样的命令,似乎真正明白的人越少(我是说比例越少)。一般情况下,对此命令输出的理解可以分这几个层次:

1.  不了解。这样的人的第一反应是:天啊,内存用了好多,70个多G,可是我几乎没有运行什么大程序啊?为什么会这样?Linux好占内存!

2.  自以为很了解。这样的人一般评估过会说:嗯,根据我专业的眼光看的出来,内存才用了17G左右,还有很多剩余内存可用。buffers/cache占用的较多,说明系统中有进程曾经读写过文件,但是不要紧,这部分内存是当空闲来用的。

3.   真的很了解。这种人的反应反而让人感觉最不懂Linux,他们的反应是:free显示的是这样,好吧我知道了。神马?你问我这些内存够不够,我当然不知道啦!我怎么知道你程序怎么写的?

4.   根据目前网络上技术文档的内容,我相信绝大多数了解一点Linux的人应该处在第二种层次。大家普遍认为,buffers和cached所占用的内存空间是可以在内存压力较大的时候被释放当做空闲空间用的。但真的是这样么?

在论证这个题目之前,我们先简要介绍一下buffers和cached是什么意思:

Free中的buffer和cache:(它们都是占用内存):

buffer : 作为buffer cache的内存,是块设备的读写缓冲区

cache: 作为page cache的内存, 文件系统的cache

如果 cache 的值很大,说明cache住的文件数很多。如果频繁访问到的文件都能被cache住,那么磁盘的读IO bi会非常小。

cache是高速缓存,用于CPU和内存之间的缓冲;

buffer

是I/O缓存,用于内存和硬盘的缓冲

buffer和 cache 是两个在计算机技术中被用滥的名词,放在不通语境下会有不同的意义。在Linux的内存管理中,这里的buffer指Linux内存的:Buffer cache。这里的cache指Linux内存中的:Page

cache。翻译成中文可以叫做缓冲区缓存和页面缓存。在历史上,它们一个(buffer)被用来当成对io设备写的缓存,而另一个(cache)被用来当作对io设备的读缓存,这里的io设备,主要指的是块设备文件和文件系统上的普通文件。但是现在,它们的意义已经不一样了。在当前的内核中,page cache顾名思义就是针对内存页的缓存,说白了就是,如果有内存是以page进行分配管理的,都可以使用page cache作为其缓存来管理使用。当然,不是所有的内存都是以页(page)进行管理的,也有很多是针对块(block)进行管理的,这部分内存使用如果要用到cache功能,则都集中到buffer cache中来使用。(从这个角度出发,是不是buffer cache改名叫做block cache更好?)然而,也不是所有块(block)都有固定长度,系统上块的长度主要是根据所使用的块设备决定的,而页长度在X86上无论是32位还是64位都是4k。

明白了这两套缓存系统的区别,就可以理解它们究竟都可以用来做什么了。

Page cache主要用来作为文件系统上的文件数据的缓存来用,尤其是针对当进程对文件有read/write *** 作的时候。如果你仔细想想的话,作为可以映射文件到内存的系统调用:mmap是不是很自然的也应该用到page cache?在当前的系统实现里,page cache也被作为其它文件类型的缓存设备来用,所以事实上page cache也负责了大部分的块设备文件的缓存工作。

Buffer cache则主要是设计用来在系统对块设备进行读写的时候,对块进行数据缓存的系统来使用。这意味着某些对块的 *** 作会使用buffer cache进行缓存,比如我们在格式化文件系统的时候。一般情况下两个缓存系统是一起配合使用的,比如当我们对一个文件进行写 *** 作的时候,page cache的内容会被改变,而buffer cache则可以用来将page标记为不同的缓冲区,并记录是哪一个缓冲区被修改了。这样,内核在后续执行脏数据的回写(writeback)时,就不用将整个page写回,而只需要写回修改的部分即可。

Linux内核会在内存将要耗尽的时候,触发内存回收的工作,以便释放出内存给急需内存的进程使用。一般情况下,这个 *** 作中主要的内存释放都来自于对buffer/cache的释放。尤其是被使用更多的cache空间。既然它主要用来做缓存,只是在内存够用的时候加快进程对文件的读写速度,那么在内存压力较大的情况下,当然有必要清空释放cache,作为free空间分给相关进程使用。所以一般情况下,我们认为buffer/cache空间可以被释放,这个理解是正确的。

但是这种清缓存的工作也并不是没有成本。理解cache是干什么的就可以明白清缓存必须保证cache中的数据跟对应文件中的数据一致,才能对cache进行 释放 。所以伴随着cache清除的行为的,一般都是系统IO飙高。因为内核要对比cache中的数据和对应硬盘文件上的数据是否一致,如果不一致需要写回,之后才能回收。

在系统中除了内存将被耗尽的时候可以清缓存以外,我们还可以使用下面这个文件来人工触发缓存清除的 *** 作:

[root@tencent64 ~]# cat /proc/sys/vm/drop_caches 

1

方法是:

echo 1 > /proc/sys/vm/drop_caches

当然,这个文件可以设置的值分别为1、2、3。它们所表示的含义为:

sync //先做同步数据 防止数据部分丢失

echo 1 > /proc/sys/vm/drop_caches:表示清除pagecache。

echo 2 > /proc/sys/vm/drop_caches:表示清除回收slab分配器中的对象(包括目录项缓存和inode缓存)。slab分配器是内核中管理内存的一种机制,其中很多缓存数据实现都是用的pagecache。

echo 3 > /proc/sys/vm/drop_caches:表示清除pagecache和slab分配器中的缓存对象。

#!/bin/bashecho       "开始清理缓存"

syncsyncsync        #写入硬盘,防止数据丢失

sleep 10                      #延迟10秒

echo 1 >/proc/sys/vm/drop_cachesecho                  "清理结束"

设置定时任务

crontab -e

* 0 * * * /root/cleanBuff.sh                       

crontab -l                   //查看是否设置成功

你可以手动free linux的cache

echo 1 >/proc/sys/vm/drop_caches # 仅清除页面缓存 echo 2 >/proc/sys/vm/drop_caches # 清除目录项和inode echo 3 >/proc/sys/vm/drop_caches # 清除页面缓存、目录项以及inode

但是这种放时只能在执行的当时起作用,过一段时间之后又会发现内存被占满,怎么办呢?

实际上内核提供了vm.vfs_cache_pressure参数用来控制缓冲区的回收频率,我们可以调整它。

这个参数是用来控制内核回收VFS缓存的频率。修改这个值会提高或者降低回收VFS缓存的频率。值可以设置为0-200中的任意值。越大回收频率越快,可以把vm.vfs_cache_pressure赋值为200来获得最快的回收频率。这个值默认值一般为100。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/7234700.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-03
下一篇 2023-04-03

发表评论

登录后才能评论

评论列表(0条)

保存