prometheus监管平台(开源)

prometheus监管平台(开源),第1张

prometheus监管平台(开源)

prometheus监管平台(开源)

一、登录二、首页三、General Management功能四、Host Management功能五、Job Management功能六、Alarm Management功能七、使用注意八、总结

前言:

此平台是在开源监控prometheus基础上进行2次开发,添加监控设置可视化管控功能和钉钉告警功能
之前有分享过我开发的prometheus管理平台(上两篇博客有介绍),那是在prometheus外部添加的一套管理平台,通过python2.7 Django编写,此次为直接修改源码,便于部署和使用。

目前此平台功能还不如上两篇介绍的功能那么多,但是后续会陆续更新,功能会同步之前介绍的平台。

prometheus源码:

https://github.com/prometheus/prometheus

本文中二次开发后代码:

https://github.com/1182640071/prometheus.git

功能介绍:

一、登录

在原prometheus页面基础上,添加了登录认证,在未登录情况下无法访问监控页面。

二、首页

登录后,进入首页欢迎语,可以从上方的导航栏中发现,多了"manage",“alarm”,“reload”,分别是"配置管理",“告警管理"和"配置刷新”。

manage中有"general management",“Host Management”,"Job Management"分别是:
general Management:配置管理、添加job、添加target,job管理。
Host Management:target管理
Job Management:job管理

alarm中含有alarm management,告警方式管理

Reload是刷新配置功能

三、General Management功能

此功能对应的是prometheus.yml配置
分别设置平台名,监控拉取数据时间间隔,匹配告警规则时间间隔,告警规则文件路径,Job yml文件路径和超时时间。

组设置是添加Job。
设置job名,和拉取数据时间间隔(不填则默认60s)和metrics,默认为metrics。
规则是用来设置拉取数据规则的,比如设置job名为kubernetes才拉取,主要用于过滤数据和联邦节点方式。

Consul的对接还没开发,后续补上

点击主机设置后,可以添加监控节点,选择节点对应的所属组(job),设置主机名,IP,PORT,还可以在label中添加自定义的label。从而实现可视化管理监控的target节点。

四、Host Management功能

从这里可以看到所有的target监控节点,可进行规律查找,删除、暂停监控等功能。

五、Job Management功能

此功能主要用于管理job组,可在此页面查看job组配置,并进行修改,出了Name外,其他配置均可直接编写,再点击更新进行修改。

六、Alarm Management功能

此功能用于管理告警发送方式,在此选择对应job,然后添加钉钉机器人的webhook,添加描述语用于后续管理区分。
这样,改Job下所有监控的target节点产生的告警都可以通过这个钉钉机器人进行发送。无需再调整alertmanager。
通过job管理告警方式,可实现将多告警组归总管理,一人轻松管理n多个业务线告警(已在实际使用中证实)。

七、使用注意

所有修改了prometheus.yml的功能都需要点击"General Management"中的更新文件,然后reload。
其他修改可直接点击reload进行重载,添加监控主机(target)节点时,会自动发现,无需reload。

八、总结

此平台是在prometheus基础上二次开发,添加了各种配置的可视化管理功能,并添加了告警功能,可直接将alertmanager汇总的告警吐回到prometheus进行告警。接口为:/sendMessages
需要额外组件:postgresql数据库,进行配置管理。sql见github代码中的SQL.md。
部署方式见README.md文件

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5704258.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存