【博客685】prometheus 出现NaN场景以及如何去除干扰(Not a Number)

这篇具有很好参考价值的文章主要介绍了【博客685】prometheus 出现NaN场景以及如何去除干扰(Not a Number)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

prometheus 出现NaN场景以及如何去除干扰(Not a Number)

1、在prometheus中使用NaN来表示无效数值或者结果

场景:

一些监控系统使用 NaN 作为空值或缺失值,但在 Prometheus 中 NaN 只是另一个浮点值。Prometheus 表示缺失数据的方式是让数据缺失。Prometheus 支持所有 64 位浮点值,包括正无穷大、负无穷大和 NaN。

出现NaN的情况示例:

  • 除以分母0

  • 用作过时处理一部分的标记。

    然而,这是一个实现细节。在过时实现中使用的特定位模式恰好是 NaN,这对 PromQL 用户来说永远是不可见的,尽管远程存储实现如果自己做任何数学运算,可能必须关心这一点。

NaN参数运算时:

因为任何涉及 NaN 的数学都会返回 NaN。根据标准浮点语义,您可以利用 NaN 的独特属性 NaN != NaN。然而,这种情况的用例通常是平均值或分位数的平均值,这两者在统计上都不是有效的。

PromQL 中有些地方对 NaN 值进行了特殊处理,以便行为符合预期。min并max会分别认为 NaN 值大于/小于所有其他数字。sort并且sort_desc实际上并不对称,NaN 总是排在底部。类似地,bottomk和topk将分别认为 NaN 值大于/小于所有其他数字。换句话说,只要你至少有k非 NaN 值,bottomk就topk不会返回 NaN。在某一时刻changes还需要修复错误才能NaN正确处理。

2、如何处理NaN

2-1、即先求和再除。一般来说,总是最后进行除法

不要用:

avg by (job)(
    rate(my_sum[5m])
  / 
    rate(my_count[5m])
)

要用:

  sum by (job)(rate(my_sum[5m]))
/
  sum by (job)(rate(my_count[5m]))

2-2、如果 NaN 设法进入对值进行数学运算的函数或运算符的输入,则结果将为 NaN。在这种情况下,消除 NaN 的来源,而不是尝试解决下游的不良数据。

注意:这也是为什么部分开源dashboard中,要对源数据取>0就是要过滤掉NaN,以避免由于个别NaN数值,导致整个Sql的结果为NaN

example:

sum (irate (memcached_commands_total{instance=“memcached-instance”}[5m])) by (command)

结果:

{command="delete"}  0
{command="flush"}   0
{command="get"} 62.733333333333334
{command="incr"}    0
{command="set"} 93.43333333333334
{command="touch"}   NaN
{command="cas"} 0
{command="decr"}    0

sum (irate (memcached_commands_total{instance=“memcached-instance”}[5m]))

{}  NaN

原因: command="touch"是NaN,因此整个计算是NaN

解决办法: 从计算源中去除NaN

sum (irate (memcached_commands_total{instance="memcached-instance"}[5m]) > 0)

3、为什么不设置成 0 , 而设置成 NaN

某些情况下0是正常值,代表某种特殊情况,这样就会混淆

4、Prometheus的函数对NaN处理逻辑:

如果 Metrics 的值里面混有 NaN 的值, 那么会直接污染整个结果, 导致输出的结果就像上面那样, 全部都是 NaN. rate 和 stddev 函数同理

// sum
func funcSumOverTime(vals []parser.Value, args parser.Expressions, enh *EvalNodeHelper) Vector {
    return aggrOverTime(vals, enh, func(values []Point) float64 {
        var sum float64
        for _, v := range values {
            sum += v.V                   // 这里可以看到, 直接累加全部的收集到的 Metrics 的值, 
        }
        return sum
    })
}

// avg
func funcAvgOverTime(vals []parser.Value, args parser.Expressions, enh *EvalNodeHelper) Vector {
    return aggrOverTime(vals, enh, func(values []Point) float64 {
        var mean, count float64
        for _, v := range values {
            count++
            mean += (v.V - mean) / count  // 这里也是类似, 把和现在差值直接加上去
        }
        return mean
    })
}

max 和 min 函数不受影响:文章来源地址https://www.toymoban.com/news/detail-627771.html

// Max
func funcMaxOverTime(vals []parser.Value, args parser.Expressions, enh *EvalNodeHelper) Vector {
    return aggrOverTime(vals, enh, func(values []Point) float64 {
        max := values[0].V
        for _, v := range values {
            if v.V > max || math.IsNaN(max) {  // 过滤 NaN
                max = v.V
            }
        }
        return max
    })
}

// Min
func funcMinOverTime(vals []parser.Value, args parser.Expressions, enh *EvalNodeHelper) Vector {
    return aggrOverTime(vals, enh, func(values []Point) float64 {
        min := values[0].V
        for _, v := range values {
            if v.V < min || math.IsNaN(min) {  // 过滤 NaN
                min = v.V
            }
        }
        return min
    })
}

到了这里,关于【博客685】prometheus 出现NaN场景以及如何去除干扰(Not a Number)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch搜索出现NAN异常

    原因分析 Elasticsearch默认的打分,一般是不会出现异常的 之所以会出现NAN异常,往往是因为我们重新计算了打分,使用了function_score 核心原因是在function_score中,出现了计算异常,比如 0/0,比如log1p(x),x为负数等 真实案例分析 测试索引 搜索query示例 搜索异常返回值 搜索异常原

    2024年02月14日
    浏览(32)
  • chatgpt赋能python:Python中出现NaN的原因及解决方法

    在Python编程中,我们经常会遇到NaN这个问题。NaN代表“Not a Number”,通常表示数值无法计算或不是数字。 NaN通常出现在以下情况: 通过0/0或者inf/inf计算得到的结果; 对于无穷大数值的某种操作; 对于无法表示的数(如复数)进行某种操作。 在Python中,我们可以使用numpy库

    2024年02月12日
    浏览(31)
  • 【博客692】grafana如何解决step动态变化时可能出现range duration小于step

    grafana本身是没有提供step参数的,因为仪表盘根据查询数据区间以及仪表盘线条宽度等,对于不同查询,相同的step并不能很好的发挥作用,所以step是动态计算的 所以在Grafana中并没有直接提供step参数,而是这两个参数:min step和resolution min step: min step故名思义设定的是step的

    2024年02月13日
    浏览(37)
  • 开源解决方案OpenTelemetry的介绍以及如何将其与Prometheus结合使用

    作者:禅与计算机程序设计艺术 OpenTelemetry 是 CNCF(Cloud Native Computing Foundation)旗下的一个开源项目。它的目标是在云原生时代成为应用性能监控领域的事实标准,目前已经成为 Prometheus、Jaeger等工具的事实标准。 OpenTelemetry 提供了一套统一的 API 和 SDK ,使得开发者可以基于

    2024年02月05日
    浏览(34)
  • yolo系列算法训练时loss出现nan值,解决办法(GTX16xx系列显卡的问题)

    1.首先 这个问题时由于GTX16xx系列显卡导致的,只要是使用GTX16xx系列显卡跑yolo系列算法的时候基本上都会遇到这个问题,真是搞得我头大,当我第一次遇到这个问题的时候,我只是简单地认为是 学习率过大导致梯度爆炸 ,但是后来我上网查资料才发现问题出现在我的显卡上

    2023年04月26日
    浏览(46)
  • matlab使用出现矩阵为奇异值、接近奇异值或缩放错误。结果可能不准确。RCOND = NaN。

    原因:新输入参数维度(行数)与原表格参数维度(行数)不同造成的,导致有些空值当0作为输入参数。 解决办法:先将excel中旧数据列删除(而非清除命令),然后在复制粘贴新数据。 以上解决办法只在gridata插值函数时完美解决,其他情况待探究。

    2024年02月11日
    浏览(37)
  • 【博客654】prometheus配置抓取保护以防止压力过载

    担心您的应用程序指标可能突然激增,以及指标突然激增导致prometheus压力过载 就像生活中的许多事情一样,标签要有节制。当带有用户 ID 或电子邮件地址的标签被添加到指标时,虽然它不太可能结束,因为突然之间,您的一个目标可能会在每次抓取时抽出数十万个时间序列

    2024年02月09日
    浏览(47)
  • 【博客675】prometheus生产上易犯的错误

    这是每个人在开始使用 Prometheus 时至少会遇到一次的经典陷阱。一旦您发现 Prometheus 基于标签的数据模型的有用性,您可能会想按各种有用的标签维度来拆分指标,直到您创建的时间序列超出 Prometheus 服务器可以处理的数量。 例如,您可能有一个 HTTP 服务器公开一个由 HTTP

    2024年02月11日
    浏览(49)
  • 【博客669】prometheus rate()选择range范围的最佳实践

    我们使用rate来计算counter的速率,那么rate的range范围应该选择哪一个?有没有固定的答案呢?30s,1m? 答案:没有,要根据你的scrap_interval来决定的 选择范围的一般规则是至少应为刮擦间隔的 4 倍。这是为了允许各种竞争条件,并对失败的刮擦具有弹性。 剖析: 假设您有一个

    2024年02月10日
    浏览(40)
  • 【博客674】警惕Prometheus 中的重复样本和无序时间戳错误

    您的 Prometheus 服务器日志中是否遇到过以下错误? 那么您的设置中可能存在配置错误,导致多个系列相互碰撞和冲突。在这篇文章中,我们将解释这些错误背后的背景、可能导致这些错误的原因以及如何调试和修复它们。 Prometheus 是一个实时监控系统,通常只需要随着时间的

    2024年02月11日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包