一种全新的日志异常检测评估框架:LightAD

这篇具有很好参考价值的文章主要介绍了一种全新的日志异常检测评估框架:LightAD。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文分享自华为云社区《【AIOps】一种全新的日志异常检测评估框架:LightAD,相关成果已被软工顶会ICSE 2024录用》,作者: DevAI。

深度学习(DL)虽然在日志异常检测中得到了不少应用,但在实际轻量级运维模型选择中,必须仔细考虑异常检测方法与计算成本的关系。具体来说,尽管深度学习方法在日志异常检测方面取得了出色的性能,但它们通常需要更长的时间来进行日志预处理、模型训练和模型推断,从而阻碍了它们在需要快速部署日志异常检测服务的在线分布式云系统中的采用。本文对现有的基于经典机器学习和深度学习方法的日志异常检测方法进行了实证研究,并提出了一种自动化日志异常检测评估框架LightAD。

1. 日志异常检测介绍

日志是AIOps领域需要处理的常见数据,是程序运行过程中由代码打印出的一些非结构化的文本信息,日志通常由时间戳和文本信息组成。日志实时记录了系统的运行状态,包括正常运行状态和故障发生时的状态。因此通过收集和分析日志,可以快速检测和定位出系统中存在的异常。本文研究了深度学习方法在日志异常检测中与更简单技术相比的优越性,在五个公共的日志异常检测数据集上对轻量级传统机器学习方法(如KNN、SLFN)和深度学习方法(如CNN、NeuralLog)进行了全面的评估。本文的研究结果表明,通过合适的数据处理方式,轻量级机器学习方法能够在时间效率和准确性方面都优于深度学习方法。为了评估深度学习方法的必要性,本文提出了一种自动化的日志异常检测模型评估框架LightAD。LightAD是一种基于贝叶斯优化器的优化训练时间、推断时间和性能得分的评估框架。通过自动化超参数调优,LightAD可以实现在日志异常检测模型之间进行公正的比较,使运维工程师能够针对不同的在线异常检测目标来选择合适的异常检测模型。

2. 对现有方法的全面评估

本文主要选用了当前效果最好的深度学习算法(包括CNN/LogRobust/NeuralLog)与常用的轻量级传统机器学习算法(包括KNN/DT/SLFN)在HDFS,BGL,Thunderbird,Spirit,Liberty等五个公开数据集上进行异常检测准确性的比较,图中展示了这些方法在不同指标上的评估结果。从图中可以看出,从F1-Score得分来看,在五个公开的日志异常检测数据集上,轻量级传统机器学习方法都比深度学习方法取得了更好的效果(黑体标出)。

深度学习方法除了本身拥有更多的参数量外,其使用的数据处理方式通常也比较耗时。例如,CNN方法需要使用日志解析工具对日志进行解析,NeuralLog需要用深度语言模型BERT来对日志进行处理。本文对轻量级传统机器学习方法采用了更高效的日志处理方式。具体而言,本文在处理以日志块来聚合的数据集(如HDFS)时,从每个文本日志消息中提取标记,以空格分隔,并删除包含数字的标记。本文使用每个块的ID将日志消息分组成日志序列,并用事件频率对其进行编码。整个预处理工作流程如下图所示。

对于按消息组织的数据集(如BGL、Thunderbird、Spirit和Liberty),本文使用的异常检测方法更加轻便。下图说明了这种方法,本文首先使用与HDFS数据集相同的预处理方式对日志消息进行标记化处理,唯一的区别是,本文不将标记化的日志消息转换为数值向量,而是通过计算Jaccard距离来衡量日志消息之间的距离。

由下图可以看出,本文所使用的处理方法在五个数据集中都只需要最少的执行时间。相比于基于神经网络的表示方法,本文使用的预处理策略运行速度快4倍到12倍;相比于带语义提取的日志解析方法,则快了13.6倍到19.3倍。

除数据处理时间外,在训练时间和推理时间评估中,深度学习方法的效率也有较大程度差于轻量级传统机器学习方法。如下图所示,在HDFS数据集上,KNN方法具有最少的训练时间(例如,比NeuralLog快3,225倍),而DT方法具有最少的推断时间(例如,比NeuralLog快185倍)。对于其他四个数据集而言,轻量级的机器学习方法在训练和推断阶段也都有着显著的效率优势。例如,对于BGL数据集而言,KNN的训练时间比NeuralLog快1,278倍,KNN的推断时间比NeuralLog快23倍。

3. 全新的日志异常检测评估框架:LightAD

为全面综合评估日志异常检测算法,本文提出了基于贝叶斯优化起的自动化算法优化和评估框架LightAD,LightAD结构如下图所示。本文首先准备了一组简单的基准模型及其初始的超参数空间,对于每个模型,本文会自动化的优化模型的超参数。通过综合考虑三个维度的模型收益打分:(1)准确性,(2)每个日志序列的训练时间,以及(3)每个日志序列的推断时间,最终抉择出模型收益分数最高的异常检测算法。

模型收益的多目标优化公式如下:

下图是在去除重复数据的HDFS数据集上使用LightAD进行异常检测方法优化和评估的结果,最高模型收益的分数由黑色加粗标识。从图中可以看出,LightAD挑选出的模型都是轻量级的机器学习方法。

4. 总结

本文来自华为云PaaS技术创新Lab和香港中文大学(深圳)贺品嘉助理教授团队合作项目成果产出,相关研究成果已被软件工程领域顶会ICSE 2024(CCF A类)正式录用,文章详细内容即将公开,敬请关注。

文章来自:PaaS技术创新Lab,PaaS技术创新Lab隶属于华为云,致力于综合利用软件分析、数据挖掘、机器学习等技术,为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力,不断构筑研发利器,持续交付高价值商业特性!加入我们,一起开创研发新“境界”!

PaaS技术创新Lab主页链接:https://www.huaweicloud.com/lab/paas/home.html

 文章来源地址https://www.toymoban.com/news/detail-746983.html

点击关注,第一时间了解华为云新鲜技术~

 

到了这里,关于一种全新的日志异常检测评估框架:LightAD的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • YOLOv7改进之WDLoss 独家首发更新|高效涨点2%改进用于小目标检测的归一化高斯 Wasserstein Distance Loss,提升小目标检测的一种新的包围框相似度度量

    💡该教程为改进进阶指南,属于 《芒果书》 📚系列,包含大量的原创首发改进方式, 所有文章都是全网首发原创改进内容🚀 内容出品: CSDN博客独家更新 @CSDN芒果汁没有芒果 💡 🚀🚀🚀内含·改进源代码· ,按步骤操作运行改进后的代码即可 重点 :🔥🔥🔥有多个同学

    2024年02月05日
    浏览(48)
  • 一种新的爬虫网络解锁器

    遇到一个需要采集境外电商的需求,相比国内各种层出不穷的反爬手段,境外产品更注重于用户行为和指纹上。 所以笔者在想是否有类似于指纹浏览器的环境可以提供给爬虫采集器使用。 经过检索,找到了一种名为爬虫网络解锁器的新兴产品。 所谓的网络解锁器,是指能够

    2024年02月07日
    浏览(52)
  • Tomcat 配合虚拟线程,一种新的编程体验

    Java 21 在今年早些时候的 9 月 19 日就正式发布,并开始正式引入虚拟线程,但是作为 Java 开发生态中老大哥 Spring 并没有立即跟进,而是在等待了两个月后的 11 月 29 日,伴随着 Spring Boot 3.2 版本的发布,在这个版本中也终于是引入了对虚拟线程的支持。 虚拟线程的引入标志着

    2024年02月05日
    浏览(55)
  • Prompt-Tuning——深度解读一种新的微调范式

    作者:王嘉宁  邮箱:lygwjn@126.com 转载请注明出处:https://wjn1996.blog.csdn.net/article/details/120607050 本博客针对Prompt进行的综述博客,暂时为半成品,持续更新中,若对您的科研和工作有所帮助,期待您的收藏与引用。 作者简介:王嘉宁,华东师范大学 数据学院 博士生,研究

    2024年02月15日
    浏览(42)
  • 一种新的告警收敛方式“先知预警”,为您的系统健康护航

    买基金,上京东 基金交易系统是用户使用京东金融APP进行基金交易的核心支撑系统,每天有数十亿元的交易额。 在大额的交易面前,系统的稳定性尤其重要,同时基金业务比较复杂,为保障每个地方的稳定,告警埋点很多,加上各种日终检查,看似很完美,实际却有了新的

    2024年02月14日
    浏览(41)
  • 丰富上下文的超高分辨率分割:一种新的基准

    数据 随着人们对超高分辨率(UHR)分割方法的兴趣不断增加和快速发展,迫切需要一个覆盖广泛场景并具有全细粒度密集注释的大规模基准来促进该领域的发展。为此,引入了URUR数据集,即具有超丰富上下文的超高分辨率数据集。顾名思义,URUR包含大量分辨率足够高的图像

    2024年02月09日
    浏览(38)
  • MAMBA介绍:一种新的可能超过Transformer的AI架构

    有人说,“理解了人类的语言,就理解了世界”。一直以来,人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式,但进展始终不大。因为人类的语言太复杂,太多样,而组成它背后的机制,往往又充满着不可名状的规律。 过去人们在自然语言处理中多采

    2024年02月04日
    浏览(45)
  • Adobe新的AI产品开放公测!Firefly带来全新的制图体验,让你效率翻倍!

    随着midjourney 还是Stable Diffusion,以及各式各样的AI绘图网站的出现。Adobe也推出AI绘图工具——Firefly。 这款产品目前免费开放公测,未来将结合Photoshop、Illustrator 等Adobe软件一起使用,只要发挥你的想像力,只要输入文字就能创造出无限可能的作品。 如果想要体验Firefly 的神奇

    2024年01月21日
    浏览(50)
  • 从星巴克看:NFT不仅仅是一种数字资产,更代表着一种全新的交互模式

    品牌方不应将数字化的生意局限在NFT收藏品上,更需另辟蹊径,比如说粉丝通证。“粉丝通证与其说是一个概念,更准确的描述一种运营系统,而任何以此为基础进行的活动都是只是一种实现方式。如果发行的品牌方有强大影响力或者‘信心’,那么发售一款NFT收藏品是最简

    2024年02月11日
    浏览(49)
  • 基于图卷积神经网络的人工智能:一种新的图像识别技术

    近年来,随着深度学习技术的快速发展,图像识别领域也取得了显著的进步。传统的图像识别方法

    2024年02月07日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包