可视化是监控的目标之一,没有一个好的展示,再多的数据我们也很难分析。这里主要对Grafana进行介绍,前面我们虽然也展示过Grafana数据可视化的界面,但是并没有深入介绍。
书本介绍了Prometheus自带的控制台界面,开启这个功能只需要在启动命令中添加相关的参数。但是,用这个方法作图的效率实在是太低了。实际使用中,都是通过配合Grafana一起使用的。关于console template的原文链接 点我
下面介绍Grafana。
Console Teamplet虽然能满足一定的可视化需求,但是也仅仅是对Prometheus的基本能力的补充。同时使用也会有许多问题,首先用户需要学习和了解Go Template模板语言,其它其支持的可视化图表类型也非常有限,最后其管理也有一定的成本。在第1章的“初识Prometheus”中我们已经尝试通过Grafana快速搭建过一个主机监控的Dashboard,在本章中将会带来读者学习如何使用Grafana创建更加精美的可视化报表。
首先Grafana是一个通用的可视化工具。‘通用’意味着Grafana不仅仅适用于展示Prometheus下的监控数据,也同样适用于一些其他的数据可视化需求。在开始使用Grafana之前,我们首先需要明确一些Grafana下的基本概念,以帮助用户能够快速理解Grafana。
对于Grafana而言,Prometheus这类为其提供数据的对象均称为数据源(Data Source)。目前,Grafana官方提供了对:Graphite, InfluxDB, OpenTSDB, Prometheus, Elasticsearch, CloudWatch的支持。对于Grafana管理员而言,只需要将这些对象以数据源的形式添加到Grafana中,Grafana便可以轻松的实现对这些数据的可视化工作。
通过数据源定义好可视化的数据来源之后,对于用户而言最重要的事情就是实现数据的可视化。在Grafana中,我们通过Dashboard来组织和管理我们的数据可视化图表:
如上所示,在一个Dashboard中一个最基本的可视化单元为一个 Panel(面板) ,Panel通过如趋势图,热力图的形式展示可视化数据。 并且在Dashboard中每一个Panel是一个完全独立的部分,通过Panel的 Query Editor(查询编辑器) 我们可以为每一个Panel自己查询的数据源以及数据查询方式,例如,如果以Prometheus作为数据源,那在Query Editor中,我们实际上使用的是PromQL,而Panel则会负责从特定的Prometheus中查询出相应的数据,并且将其可视化。由于每个Panel是完全独立的,因此在一个Dashboard中,往往可能会包含来自多个Data Source的数据。
Grafana通过插件的形式提供了多种Panel的实现,常用的如:Graph Panel,Heatmap Panel,SingleStat Panel以及Table Panel等。用户还可通过插件安装更多类型的Panel面板。
除了Panel以外,在Dashboard页面中,我们还可以定义一个 Row(行) ,来组织和管理一组相关的Panel。
除了Panel, Row这些对象以外,Grafana还允许用户为Dashboard定义 Templating variables(模板参数) ,从而实现可以与用户动态交互的Dashboard页面。同时Grafana通过JSON数据结构管理了整个Dasboard的定义,因此这些Dashboard也是非常方便进行共享的。Grafana还专门为Dashboard提供了一个共享服务: https://grafana.com/dashboards ,通过该服务用户可以轻松实现Dashboard的共享,同时我们也能快速的从中找到我们希望的Dashboard实现,并导入到自己的Grafana中。
作为一个通用可视化工具,Grafana除了提供灵活的可视化定制能力以外,还提供了面向企业的组织级管理能力。在Grafana中Dashboard是属于一个 Organization(组织) ,通过Organization,可以在更大规模上使用Grafana,例如对于一个企业而言,我们可以创建多个Organization,其中 User(用户) 可以属于一个或多个不同的Organization。 并且在不同的Organization下,可以为User赋予不同的权限。 从而可以有效的根据企业的组织架构定义整个管理模型。
对于Grafana而言,Prometheus就是一个用于存储监控样本数据的数据源(Data Source)通过使用PromQL查询特定Prometheus实例中的数据并且在Panel中实现可视化。
接下来,我们将带领读者了解如何通过Panel创建精美的可视化图表。
Panel是Grafana中最基本的可视化单元。每一种类型的面板都提供了相应的查询编辑器(Query Editor),让用户可以从不同的数据源(如Prometheus)中查询出相应的监控数据,并且以可视化的方式展现。
Grafana中所有的面板均以插件的形式进行使用,当前内置了11种类型的面板,常用的包括:Graph,Singlestat,Heatmap, Dashlist,Table以及Text等。
其中像Graph这样的面板允许用户可视化任意多个监控指标以及多条时间序列。而Siglestat则必须要求查询结果为单个样本。Dashlist和Text相对比较特殊,它们与特定的数据源无关。
通过Grafana UI用户可以在左边的菜单栏增加一个Dashboard,然后里面选择 Choose Visualization 即可看到下面这些的面板:
选择想要创建的面板类型即可。这里以Graph面板为例,选择Graph后我们看到有4个菜单的内容需要进行设置的。
最上面的那个是Queries,在这里要定义数据源以及查询的PromQL语句;第二个也就是上图看到的,这里可以定义图表显示的内容,比如x轴和y轴的设置;第三个是General,可以定义面板的名称以及注释等;最后一个是alert,配置告警信息(Grafana也可以做告警的)。
在通用设置中,除了一些Panel的基本信息以外,最主要的能力就是定义动态Panel的能力,这部分内容会在本章的“模板化Dashboard”小结中详细介绍。
这4个设置菜单里面,最重要是第一个菜单,也就是PromQL查询语言的编写,示例为我要显示CPU的使用率的情况,我这么设置:
公式为: avg(irate(node_cpu_seconds_total{mode!='idle'}[2m])) without (cpu)
在数据源的选择那里,有好几个选项。其中default是我们前面设定的默认数据源;Prometheus是我们添加的数据源;Grafana则用于需要查询Grafana自身状态时使用; Mixed用于需要从多个数据源中查询和渲染数据的场景;另外一个Dashboard不清楚了。这里我们选择Prometheus作为数据源。
选择好数据源之后,我们要配置查询的语句。Grafana提供了对PromQL的完整支持,在Query Editor中,可以添加任意个Query,并且使用PromQL表达式从Prometheus中查询相应的样本数据。
每个PromQL表达式都可能返回多条时间序列。**Legend **用于控制如何格式化每条时间序列的图例信息。Grafana支持通过模板的方式,根据时间序列的标签动态生成图例名称,例如:使用表示使用当前时间序列中的instance标签的值作为图例名称:
当查询到的样本数据量非常大时可以导致Grafana渲染图标时出现一些性能问题,通过 Min Step 可以控制Prometheus查询数据时的最小步长(Step),从而减少从Prometheus返回的数据量。
Resolution 选项,则可以控制Grafana自身渲染的数据量。例如,如果 Resolution 的值为 1/10 ,Grafana会将Prometeus返回的10个样本数据合并成一个点。因此 Resolution 越小(1小于10,也就是默认已经最小了)可视化的精确性越高,反之,可视化的精度越低。
Format 选项定义如何格式化Prometheus返回的样本数据。这里提供了3个选项:Table,Time Series和Heatmap,分别用于Tabel面板,Graph面板和Heatmap面板的数据可视化。
除此以外,Query Editor还提供了调试相关的功能,点击 Query Inspector 可以展开相关的调试面板:
在这里我们可以配置显示的样式,这里我只自定义了左边Y轴的数字格式,选择为百分比。
在这里我定义了面板的名称已经注释
这里我没有做定义,最后的图表如下:
Graph面板是最常用的一种可视化面板,其通过折线图或者柱状图的形式显示监控样本随时间而变化的趋势。我们继续用CPU的例子来做讲解:
查询公式为
上面的箭头指向, Add series override菜单,可以让我们自定义某一条折线的样式
继续往下,这里可以定义X、Y轴的情况,比如我把左边Y轴的单位改为百分数。
继续往下,这里可以定义图例的样式,也就是我们前面定义的 {{ instance }} 的样式,这里我选择用表格来显示,显示min、max和current的值。
继续往下,这里可以定义一个阈值,图表是告警的阈值。比如说我的CPU使用率超过50%,那就会显示不同的颜色,有一条阈值线。
这里和之前一样,只定义这个面板的名称和注释。
最后的图表是:
热力图这里不做介绍,这个用得稍微少点。可以看原文 点我
Singlem Panel侧重于展示系统的当前状态而非变化趋势。如下所示,在以下场景中特别适用于使用SingleStat:
如下所示,是使用SingleStat进行数据可视化的显示效果:
我们继续用CPU来说事,比如我这里定义CPU使用率低于50%就定义主机状态为健康,否则就是不健康。
对于SingleStat Panel而言,其只能处理一条时间序列,否则页面中会提示“Multiple Series Error”错误信息。这里使用上例一样的语句去查询:
首先我们新建一个singlestat面板,然后输入公式,这时候毫无疑问出现了错误提示:
为了能够正常显示,这里我们手动指定下单个实例,修改语句为:
这时候就有数据了,接下来我们要修改图表的样式。
默认情况下,当前面板显示的是平均值,我们实际要看的是当前的值.我们还要修改显示的颜色,这里我定义了两个值,小于0.5的时候显示绿色,大于0.8显示红色,中间显示橙色;然后设置显示折线图,并设置为绿色。
为了提高数字的可读性,我们把数字替换为文字。CPU使用率低于50%的时候显示为healthy,大于50%的时候显示为unhealthy。
配置面板名称及注释
最后的成品如下:
前面我们介绍的例子中,Grafana能够方便的将Prometheus返回的数据进行可视化展示。例如,在展示主机CPU使用率时,我们使用了如下表达式:
该表达式会返回当前Promthues中存储的所有时间序列,每一台主机都会有一条单独的曲线用于体现其CPU使用率的变化情况:
而当用户只想关注其中某些主机时,基于当前我们已经学习到的知识只有两种方式,要么每次手动修改Panel中的PromQL表达式,要么直接为这些主机创建单独的Panel。但是无论如何,这些硬编码方式都会直接导致Dashboard配置的频繁修改。在这一小节中我们将学习使用Dashboard变量的方式解决以上问题。
在Grafana中用户可以为Dashboard定义一组变量(Variables),变量一般包含一个到多个可选值。如下所示,Grafana通过将变量渲染为一个下拉框选项,从而使用户可以动态的改变变量的值:
例如,这里定义了一个名为node的变量,用户可以通过在PromQL表达式或者Panel的标题中通过以下形式使用该变量:
变量的值可以支持单选或者多选,当对接Prometheus时,Grafana会自动将$node的值格式化为如“ host1|host2|host3 ”的形式。配合使用PromQL的标签正则匹配“ =~ ”,通过动态改变PromQL从而实现基于标签快速对时间序列进行过滤。
通过Dashboard页面的Settings选项,可以进入Dashboard的配置页面并且选择Variables子菜单:
用户需要指定变量的名称,后续用户就可以通过$variable_name的形式引用该变量。Grafana目前支持7种不同的变量类型,而能和Prometheus一起工作的主要包含以下5种类型:
Label属性用于指定界面中变量的显示名称,Hide属性则用于指定在渲染界面时是否隐藏该变量的下拉框。
当Prometheus同时采集了多个主机节点的监控样本数据时,用户希望能够手动选择并查看其中特定主机的监控数据。这时我们需要使用Query类型的变量。
如上所示,这里我们为Dashboard创建了一个名为node的变量,并且指定其类型为Query。Query类型的变量,允许用户指定数据源以及查询表达式,并通过正则匹配(Regex)的方式对查询结果进行处理,从而动态生成变量的可选值。在这里指定了数据源为Prometheus,通过使用node_load1我们得到了两条时间序列:
通过指定正则匹配表达式为 /.*instance="([^"]*).*/ 从而匹配出标签instance的值作为node变量的所有可选项,即:
Selection Options 选项中可以指定该变量的下拉框是否支持多选,以及是否包含全选(All)选项。
保存变量后,用户可以在Panel的Queries中通过$node的方式使用该变量,如下所示:
这里需要注意的是,如果允许用户多选在PromQL表达式中应该使用标签的正则匹配模式,因为Grafana会自动将多个选项格式化为如“192.168.113.52:9100|192.168.113.70:9100”的形式。
使用Query类型的变量能够根据允许用户能够根据时间序列的特征维度对数据进行过滤。在定义Query类型变量时,除了使用PromQL查询时间序列以过滤标签的方式以外,Grafana还提供了几个有用的函数:
例如,当需要监控Prometheus所有采集任务的状态时,可以使用如下方式,获取当前所有采集任务的名称:
label_values(up, job)
例如,有时候我们想要动态修改变量查询结果。比如某一个节点绑定了多个ip,一个用于内网访问,一个用于外网访问,此时prometheus采集到的指标是内网的ip,但我们需要的是外网ip。这里我们想要能在Grafana中动态改变标签值,进行ip段的替换,而避免从prometheus或exporter中修改采集指标。
这时需要使用grafana的query_result函数
当在一个Panel中展示多条时间序列数据时,通过使用变量可以轻松实现对时间序列的过滤,提高用户交互性。除此以外,我们还可以使用变量自动生成Panel或者Row。 如下所示,当需要可视化当前系统中所有采集任务的监控任务运行状态时,由于Prometheus的采集任务配置可能随时发生变更,通过硬编码的形式实现,会导致Dashboard配置的频繁变更:
如下所示,这里为Dashboard定义了一遍名为job的变量:
通过使用label_values函数,获取到当前Promthues监控指标up中所有可选的job标签的值:
如果变量启用了Multi-value或者Include All Option选项的变量,那么在Panel的General选项的Repeat中可以选择自动迭代的变量,这里使用了Singlestat展示所有监控采集任务的状态:
Repeat选项设置完成后,Grafana会根据当前用户的选择,自动创建一个到多个Panel实例。 为了能够使Singlestat Panel能够展示正确的数据,如下所示,在Prometheus中,我们依然使用了 job 变量,不过此时的$job反应的是当前迭代的值:
最后的结果图如下,当我选择全部的时候,自动生成了6个Panel。
官方文档: https://docs.openshift.com/container-platform/3.11/servicemesh-install/servicemesh-install.html#install_chapter_6
Jaeger是一个开源的分布式跟踪系统。您可以使用jaeger来监控和排查基于微服务的分布式系统的故障。使用jaeger,您可以执行跟踪组成应用程序的各种微服务执行请求的路径。默认情况下,jaeger是作为 Service Mesh 的一部分安装的。
1.1.1 部署了bookinfo应用程序后,通过访问http://$gateway_url/productpage并刷新页面几次来生成一些访问痕迹。
1.1.2 将jaeger的路径设置到环境变量
1.1.3 从浏览器访问jaeger
1.1.4 在Jaeger仪表板的左侧窗格中,从Service菜单中选择“productpage”,然后单击窗格底部的“Find Traces”按钮。将显示跟踪列表,如下图所示:
1.1.5 单击列表中的某个跟踪以打开该跟踪的详细视图。如果单击顶部(最新)跟踪,你将看到与`/productpage相对应的详细信息。
上一图中的跟踪由几个嵌套的span组成,每个span对应于一个bookinfo服务调用,所有这些都是响应 /productpage 请求而执行的。总体处理时间为2.62s, details service 花费3.56ms, reviews service 花费2.6s, ratings service 花费5.32ms,对远程服务的每一个调用都由客户端和服务端的span表示。例如,详细信息客户端范围标记为productpage details.myproject.svc.cluster.local:9080。嵌套在它下面的span,标记为details details.myproject.svc.cluster.local:9080,对应于请求的服务器处理。跟踪还显示对istio策略的调用,该策略反映了istio所做的授权检查。
Prometheus是一个开源的服务监控工具。Prometheus以指定的时间间隔从配置的目标收集metrics,评估规则表达式,显示结果,并在观察到某些条件为真时触发警报。Grafana或其他API Consumer被用于可视化展示收集到的数据。
2.1.1 验证prometheus服务是否正在集群中运行。
2.1.2 通过访问bookinfo应用程序生成网络流量:
2.1.3 将Prometheus访问路径写入环境变量
2.1.4 打开浏览器访问 http://${PROMETHEUS_URL}
2.1.5 在Expression字段中,输入istio_request_duration_seconds_count,然后单击Execute按钮。将看到类似下图:
2.1.6 你可以使用选择器缩小查询范围。例如,istio_request_duration_seconds_count_destination_workload=“reviews-v2”仅显示具有匹配destination_workload标签的计数器。有关使用查询的更多信息,请参阅 Prometheus文档 。
2.1.7 要列出所有可用的Prometheus Metrics,请运行以下命令
Kiali运行于Isito之上,用于可视化服务网格拓扑,以提供对断路器、请求速率等功能的可见性。Kiali提供了从Application到Service和Workload的不同层次的Service Mesh组件的可见性。Kiali实时提供了namespace的交互式图形化界面。Kiali可以在多个层次(Application、versions、workloads)上显示所选图形节点或边缘的上下文和图表信息。
3.1.1 访问Kiali控制台的路径已经存在。运行以下命令获取路由和Kiali Url
3.1.2 可以看到这样的结果:
3.1.3 在浏览器访问Kiali https://${KIALI_URL}
登录后,会看到OVERVIEW PAGE,该页面提供了系统中各个namespace的运行状况的快照。
3.3.1 单击左侧导航中的“Graph”。Graph page显示一个包含所有微服务的图形,这些微服务由通过它们之间的请求连接。在这个页面上,您可以看到服务是如何交互的。
3.3.2 从namespace菜单中,选择BookInfo。现在,图表只显示BookInfo应用程序中的服务。
3.3.3 单击左下角的“Legend”。Kiali显示一个包含图形图例的窗口。
3.3.4 将鼠标悬停在ProductPage节点上,将高亮显示该节点的传入和传出流量。
3.3.5 单击ProductPage节点,页面右侧显示ProductPage的详细信息。
3.4.1 单击左侧导航中的“Services”链接。在Services Page上,您可以查看集群中运行的所有Service的列表以及有关这些Service的其他信息,例如运行状况和请求错误率。
3.4.2 将鼠标hover在任何服务的运行状况图标上,以查看有关该服务的运行状况信息。当服务处于联机状态并且响应请求时没有错误,则认为它是健康的。
3.4.3 单击“Reviews ”服务查看其详细信息。请注意,此服务有三个不同的版本。
3.4.4 单击其中一个服务的名称以查看有关该服务的其他详细信息。
3.5.1 单击左侧导航中的istio config链接。在此页面上,您可以看到当前运行的所有配置,如Circuit Breakers, Destination Rules, Fault Injection, Gateways, Routes, Route Rules, and Virtual Services.
3.5.2 单击其中一个配置以查看其他附加信息。
单击左侧导航中的Distributed Tracing链接。在这个页面上,您可以看到Jaeger提供的跟踪数据。
Grafana是一个开源工具,用于创建监控、metrics分析、并提供可视化的dashboard。您可以使用grafana查询metrics、可视化metrics、告警,无论它们存储在graphite、elasticsearch、opentsdb、prometheus或infloxdb。Istio通过Prometheus和Grafana进行监控。
本节演示如何设置和使用Istio仪表板来监视Service Mesh的流量。你需要安装grafana istio插件,并使用基于Web的界面查看Service Mesh流量数据。
4.1.1 查询并设置Granfa的route到环境变量
4.1.2 打开浏览器访问Grafana, http://${GRAFANA_URL}
4.1.3 在左上角的菜单中,选择istio mesh dashboard以查看istio mesh metrics。
4.1.4 通过访问bookinfo应用程序生成一些流量:
dashboard反映通过Service Mesh的流量,类似于下图:
4.1.5 要查看Service的详细指标,请单击“Services”列中的服务名称。dashboard类似于下图:
4.1.6 要切换到workloads dashboard,请单击左上角菜单上的Isito Workload Dashboard。看到类似下图:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)