记一次k8s集群节点镜像存储容量报警问题

记一次k8s集群节点镜像存储容量报警问题,第1张

自从我们的kubernetes集群部署到生产环境后,将流量从原有的服务器上切过来之后,部分节点出现挂载目录容量爆满的情况。

运维的同事报给我们之后,我们首先想到的是节点镜像过多,于是我们提供一个命令用于清理当前节点上无用的、报错的、镜像和docker资源文件

docker system prune  命令可以用于清理磁盘,删除关闭的容器、无用的数据卷和网络,以及dangling镜像(即无tag的镜像)

docker system prune -a 命令清理得更加彻底,可以将没有容器使用Docker镜像都删掉。

待运维执行之后,目录存储资源释放了一些,我们本以为这就告一段落了。然而,事与愿违,没过多久,再次容量报警。。。

我们开始重视起来,开始检视节点上工作的容器,发现在日志爆炸的节点上运行了定时任务,开发人员将定时任务的日志输出到控制台,于是我们回到节点docker的工作目录,通过 du -sh 方式查看每个文件夹大小,发现docker目录下containers目录占用空间巨大,进去看原来是每个运行的容器存放日志的目录,我们找出占用空间最大的日志目录,发现容器日志特别的大

我们可使用如下命令查看各个日志的文件大小

ls -lh $(find /var/lib/docker/containers/ -name -jsonlog)

那我们如何清理日志呢,如果docker容器正在运行,那么使用rm -rf 方式删除日志后,通过df -h会发现磁盘空间并没有释放

原因:在Linux或者Unix系统中,通过rm或者文件管理器删除文件将会从文件系统的目录结构上解除链接(unlink)然而如果文件是被打开的(有一个进程正在使用),那么进程将仍然可以读取该文件,磁盘空间也一直被占用

我们通过 cat /dev/null > -jsonlog 来清理相应的日志,然后重启

systemctl daemon-reload

systemctl restart docker

然而,我思考,不能每次满的时候找运维清理日志啊,这多麻烦,难道docker没有相应的机制应付输出到控制台的日志吗?答案是:当然不会

在新版的docker中我们可以通过设置 vim /etc/docker/daemonjson 来限制docker的日志量

"log-driver":"json-file","log-opts":{ "max-size" :"200m","max-file":"5"}

顾名思义max-size就是每个日志文件大小,max-file是最多生成的文件数,如上我设置成功后,每个容器运行的日志最多有五份每份200M大小,这样就基本限制了容器的日志大小。

然后你觉得结束了吗??并不!!

容器日志我们是限制完了,本以为高枕无忧,不用担心出现日志爆满的情况了,但是事与愿违,过几天硬盘容量又满了。。。

我们究其原因,发现在docker的运行目录下overlay这个文件夹里存放着所有的容器挂载目录,也就是容器的系统文件在这里放着,在容器中跑着的服务产生日志很可能并不是输出到控制台,而是保存到本地,容器内的日志文件也是会占用磁盘空间的,这就让我们犯愁了,这个不好限制开发团队不存日志或者规定团队存放目录啊,对于一个成熟的容器平台来说,海纳百川那是必须的~

于是我们打起了kubelet的主意

在 k8s中文社区中有详细的限制方法  那具体做法呢,其实就是为节点加上驱逐策略,当cpu或者内存或者硬盘空间不满足要求时,自动驱逐一些消耗资源大的容器,保证节点稳定性。

里面主要是有以下几个关键驱逐信号
上面的每个信号都支持整数值或者百分比。百分比的分母部分就是各个信号的总量。kubelet 支持两种文件系统分区。

nodefs:保存 kubelet 的卷和守护进程日志等。

imagefs:在容器运行时,用于保存镜像以及可写入层。

imagefs 是可选的。Kubelet 能够利用 cAdvisor 自动发现这些文件系统。Kubelet 不关注其他的文件系统。所有其他类型的配置,例如保存在独立文件系统的卷和日志,都不被支持。

因为磁盘压力已经被驱逐策略接管,因此未来将会停止对现有 垃圾收集 方式的支持。

具体的内容大家可以详细去看看社区里的介绍,我这里就不再赘述了,我这边献上我的驱逐方案~

执行vim /etc/systemd/system/kubeletserviced/10-kubeadmconf

在里面插入

Environment="KUBELET_OTHER_ARGS=

--eviction-hard=memoryavailable<2Gi,nodefsavailable<5Gi,imagefsavailable<5Gi 

--eviction-minimum-reclaim=memoryavailable=500Mi,nodefsavailable=5Gi,imagefsavailable=5Gi 

--node-status-update-frequency=10s 

--eviction-pressure-transition-period=30s"

解读:内存小于2G驱逐,root目录磁盘空间小于5G驱逐,镜像目录磁盘空间小于5G驱逐,节点检测为每10秒一次,在跳出压力状态之前要等待的时间为30秒。

在某些场景下,驱逐 Pod 可能只回收了很少的资源。这就导致了 kubelet 反复触发驱逐阈值。另外回收资源例如磁盘资源,是需要消耗时间的。

要缓和这种状况,Kubelet 能够对每种资源定义 minimum-reclaim。kubelet 一旦发现了资源压力,就会试着回收至少 minimum-reclaim 的资源,使得资源消耗量回到期望范围。

也就是说当内存触发驱逐时,kubelet至少要让内存有25G,当root和镜像磁盘空间发生驱逐时,kubelet至少要让磁盘有10G的空间。

那驱逐的规则是什么呢,对什么样的容器做驱逐呢?这个我们下回分解哈。

那总的来说,若要解决节点镜像存储报警,我们可以从三个方面入手

1容器:通过docker限制容器日志大小

2k8s:通过kubelet来驱逐过大的容器

3跟开发人员沟通,精简容器,不让内存泄漏,不随意使用资源(很难啦~~~)

                                                                                                                                    祝各位新春快乐~

服务器硬盘灯亮红色这个时候都是因为硬盘后台数据信息严重的延时,这样才会对于设备的提供处理来说都是严重损失的,保证及时的修复U盘信息统计功能。感兴趣的话点击此处,免费了解一下

服务器又可以分为通用型服务器和专用型(或称“功能型”)服务器,如实达的沧海系列功能服务器。通用型服务器是没有为某种特殊服务专门设计的可以提供各种服务功能的服务器,当前大多数服务器是通用型服务器。亿万克是个做服务器很好的公司,亿万克集服务器和存储等数据中心产品的研发、生产、销售、服务系统整合于一体,是民族高科技制造企业领导品牌 。亿万克的服务网点遍布全球,各网点配备五星级客服专员,全年24小时极速响应,让客户售后无忧。它依托1000+方案数据标本,针对用户需求进行多维度专业评估,为客户科学预测、精准击破各类系统问题。方案管家提供1对1专属服务,全流程、主动式跟进每个环节,免去繁冗对接,让客户省时省力更省心。方案设计、软硬件架构、运维管理等多团队协同,48小时内为客户量身打造场景式、个性化解决方案,确保“一企一策”。亿万克拥有业界一流技术团队支持,它的技术人员人均从业经验10年以上,为客户的系统稳定运行保驾护航。

亿万克亚当R522N3是一款基于Intel C600系列开发的服务器,拥有超强的处理性能及灵活的RAID配置方案,实现性能、密度、扩展性最大化设计,在足量的整机性能与经济实惠之间实现优良的平衡,适用于企业虚拟化、分布式存储、云计算大数据、VDI及深度学习等应用领域。

硬盘红灯是硬盘有问题了,进raid卡webbios的热键看屏幕提示,不一定是ctrl+h,不同的卡这个热键不同,在提示的时候再按,如果还是不行,要看数据是否需要保留再决定怎么做。
按照服务器的结构,可以分为CISC架构的服务器和RISC架构的服务器。CISC架构主要指的是采用英特尔架构技术的服务器,即我们常说的“PC服务器”;RISC架构的服务器指采用非英特尔架构技术的服务器,如采用Power PC、Alpha、PA-RISC、Sparc等RISC CPU的服务器。RISC架构服务器的性能和价格比CISC架构的服务器高得多。
亿万克不会有这样的故障,亿万克是个做服务器很好的公司,买服务器比较推荐亿万克,有兴趣可以去官网了解一下。亿万克集服务器和存储等数据中心产品的研发、生产、销售、服务系统整合于一体,是民族高科技制造企业领导品牌 。

亿万克亚当R922N5+是一款搭载英特尔Purley平台可扩展系列处理器的2U双路计算型服务器,单颗CPU最高拥有28个内核及56线程,最大TDP 205W,结合领先的AI计算性能,能游刃有余地处理企业虚拟化、图形编辑、视频直播、神经网络、深度学习、推理等多种AI 场景应用。感兴趣请点击此处,了解一下。

1、C盘空间不足,如果清理后很快有不足的话很可能是中病毒。已格式化估计应没有问题了。
2、连续报警看机箱后部是不是有两块电源模块,如果两块的话,一块有问题,另一块正常就会报警,按下红色的撤销警报按钮,报警声消失。过了免费售后服务期,一块电源模块1500元吧。
亿万克是个做服务器很好的公司,买服务器比较推荐亿万克,有兴趣可以去官网了解一下。亿万克集服务器和存储等数据中心产品的研发、生产、销售、服务系统整合于一体,是民族高科技制造企业领导品牌 。

亿万克服务器搭载最新X86架构的高性能可扩展处理器,具备多核心超线程技术,支持DDR4、PCIe40等最新技术标准,提供完整的BMC管理功能,BIOS集成E VOC专利技术BPI,使服务器拥有超高的处理性能自主创新,追求卓越。感兴趣请点击此处,了解一下。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/13178637.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-06-16
下一篇 2023-06-16

发表评论

登录后才能评论

评论列表(0条)

保存