Prometheus相关的主机监控指标

这篇具有很好参考价值的文章主要介绍了Prometheus相关的主机监控指标。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、CPU监控

CPU负载指标

node_load1

node_load5

node_load15

以上三个指标为主机CPU平均负载，分别对应一分钟、五分钟和十五分钟的时间间隔。CPU负载是指某段时间内占用CPU时间的进程和等待CPU时间的进程数之和。一般来说，cpu负载数/cpu核数如果超过0.7，应该开始关注机器性能情况，如果超过1的话，运维人员应该介入处理。

CPU使用率

node_cpu_seconds_total

该指标包括了多个标签，分别标记每种处理模式使用的CPU时间，该指标为counter类型。这个指标不适合直接拿来使用，可通过前面学习的PromQL，将其转化成CPU使用率的指标

mode="idle"代表CPU 的空闲时间，所以我们只需要算出空闲的时间占比，再以总数减去该值，便可知道CPU的使用率，此处使用irate方法。由于现有的服务器一般为多核，所以加上avg求出所有cpu的平均值，才是CPU的使用率情况。

例:100 -avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance)* 100

二、内存监控

物理内存使用率

对于内存，我们一般会关注内存的使用率，但node-exporter并不直接进行计算，我们需要根据node-exporet返回的内存指标自己写计算公式：

例:

node_memory_MemTotal_bytes #总内存大小

node_memory_MemFree_bytes #空闲内存大小

node_memory_Buffers_bytes #缓冲缓存大小

node_memory_Cached_bytes #页面缓存大小

计算的公式为：（总内存 -（空闲内存 + 缓冲缓存 + 页面缓存））/ 总内存 * 100

(node_memory_MemTotal_bytes - (node_memory_MemFree_bytes + node_memory_Buffers_bytes+node_memory_Cached_bytes ))/node_memory_MemTotal_bytes * 100

swap内存使用率

Swap为交换内存分区，它使用磁盘上的部分空间来充当服务器内存，当系统物理内存吃紧时，Linux 会将内存中不常访问的数据保存到 swap 上，这样系统就有更多的物理内存为各个进程服务。而当系统需要访问 swap 上存储的内容时，再将 swap 上的数据加载到内存中，这就是常说的换出和换入。交换空间可以在一定程度上缓解内存不足的情况，但是它需要读写磁盘数据，所以性能不是很高。

例:

node_memory_SwapTotal_bytes #swap内存总大小

node_memory_SwapFree_bytes #swap空闲内存大小

计算的公式：

(node_memory_SwapTotal_bytes - node_memory_SwapFree_bytes)/node_memory_SwapTotal_bytes * 100