聊聊日志聚类算法及其应用场景

这篇具有很好参考价值的文章主要介绍了聊聊日志聚类算法及其应用场景。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


随着AI模型的普及应用与高速发展,主要的云厂商与AI大厂提供了对应的服务支持,使得业务的应用可以轻松对接AI算法,使其在实际项目中落地。
我个人也是极度推崇在项目中应用AI算法更轻松更数智化的兑现功能。
虽然AI门槛很高,但随着时间的推移与AI模型的发展,我相信对于普通的程序猿来说,还是可以入手且实际开发应用AI算法模型。


阅读《基于 Flink ML 搭建的智能运维算法服务及应用》一文后,对其中日志聚类算法有了些思考。

概述

日志聚类,简而言之是对海量日志的分析;其分析处理链路可以分为如下流程:日志采集 -> 预处理 -> 分词和特征表示 -> 聚类和标注;也可以概述为数据收集及预处理、文本向量化、文本相似度计算、文本分类四部分。

算法模型分析

针对如上的链路流程做一个拆分叙述。

日志采集

常用的日志采集方案是写完数据库多写一遍ElasticSearch;目前我个人推荐的方案是基于Flink CDC组件来采集。

预处理

一般来说,预处理阶段是在业务中常用的一个阶段,根据业务的不同做不同的处理,比如精简文本删除不必要的语气词、标点符号、替换占位符等等。日志一般都是非结构化的文本类型数据,由于开发人员的开发习惯与团队开发规范的约束,每个人记录的日志模板可能是不一样的,因此,需要对日志文本做一次常见的预处理—————删除不必要的语气词等。

分词和特征表述

分词

其实对于分词,我一开始想到的就是ElasticSearch中很重要的一个组件模块——————分析器。分析器由字符过滤器、分词器、词语(token)过滤器组成。在我看来,预处理流程与分词流程其实可以归纳为分析器的处理。

对于分词,当前主要有两种算法,一种是基于已有的词典库,一种是基于统计的机器学习。

基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于词典的分词算法是应用最广泛、分词速度最快的。基于统计的机器学习算法法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。

常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性。

特征表述

将分词后的词作为特征列表,基于此列表,对日志做向量化的构建。通过TF-IDF算法对关键词做统计分析,得到词向量后,再做一次相似度比较,最终就可以得到向量。

其实我理解这里就是在做文本相似度匹配的处理。一般都是处理文本向量化。

聚类

最后通过聚类算法:层次聚类算法、K-means算法等来得到我们的聚类结果,也就是各个日志模板所对应的日志类别。

总结

在上份工作中,其实就遇到了类似的问题,当时我们有大量的日志数据,且需要基于这些日志数据做分析推送对应的解决策略以及解答给客户或是一线。但由于当时所有的开发人员都做的是业务开发,对机器学习及应用压根就不清楚(严格来说,都没有考虑过从这方面入手),所以导致当时的运维量和客户的反馈不太好;当时我花了不少时间分析过如何解决,受限于当时的认知与能力,画过一个简单的流程图,但很难落地,而且没有足够的理论与算法的支持,相比较现在的解决方案,那真是没眼看。目前来看,日志聚类的应用完全是可以落地到当时的业务上的。

参考

基于 Flink ML 搭建的智能运维算法服务及应用

对智能化运维中日志聚类分析的一些思考

SREWorks v1.5 版本发布 | 基于实时作业平台的日志聚类开源

揭秘阿里云Flink智能诊断利器——Fllink Job Advisor文章来源地址https://www.toymoban.com/news/detail-595244.html

到了这里,关于聊聊日志聚类算法及其应用场景的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 讲解机器学习中的 K-均值聚类算法及其优缺点

    K-均值聚类算法是一种常见且简单的无监督学习算法,用于将数据集分为K个不同的类别。其主要思想是将数据集中的每个样本点分配给离它最近的质心,然后更新质心的位置,重复此过程直到质心不再移动或达到预定的迭代次数。 K-均值聚类算法的步骤如下: 随机初始化K个

    2024年01月17日
    浏览(58)
  • 基于改进ISODATA算法的负荷场景曲线聚类MATLAB程序

    🍞正在为您运送作品详情 https://mbd.pub/o/bread/ZJqclJ9v 参考文献: 基于机器学习的短期电力负荷预测和负荷曲线聚类研究_张辰睿(硕士论文) 参考其第三章 主要内容: 主要包含四种聚类算法,K-means聚类、ISODATA聚类、L-ISODATA聚类及K-L-ISODATA聚类,并且包含了对聚类场景以及聚

    2024年02月13日
    浏览(41)
  • K-Means聚类算法及其python实现(已附上代码至本博客)

    觉得有用的,一腚要先点赞后收藏!!!气死人了,40多个收藏0点赞!! 对于 n代表了x有n维,x上标j表示第j维的特征,下标i表示该向量是第i个样本 簇中心坐标为:(当然,这也是重新计算簇中心坐标的方法!!) 向量 u i = ( u i ( 1 ) , u i ( 2 ) , ⋅ ⋅ ⋅ , u i ( j ) , ⋅ ⋅ ⋅ , u i ( n )

    2024年02月08日
    浏览(42)
  • K-均值聚类算法及其优缺点(InsCode AI 创作助手测试生成的文章)

    K-均值聚类算法是一种常用的无监督学习算法,用于将数据集划分为 K 个不同的类别。该算法的基本思想是根据数据点之间的距离,将它们划分为离其最近的 K 个簇之一。 算法的步骤如下: 初始化 K 个聚类中心,可以随机选择数据集中的 K 个点。 将每个数据点分配给离它最

    2024年02月01日
    浏览(50)
  • AI Transformer:最新进展及其应用场景解析

    作者:禅与计算机程序设计艺术 随着人工智能(AI)技术的飞速发展,深度学习(DL)和Transformer模型已经成为最具代表性的两个研究方向。近年来,两者在自然语言处理、图像识别、文本生成等领域均取得重大突破,在各行各业产生了广泛影响。本文将从最新研究成果和相关

    2024年02月07日
    浏览(66)
  • 经典动态规划问题详解以及其主要应用场景

    ** 动态规划(英语:Dynamic programming,简称 DP),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于有重叠子问题和最优子结构性质的问题。。 动态规划最核心的思

    2024年02月10日
    浏览(38)
  • 深入探究Vue.js生命周期及其应用场景

    当谈到Vue.js的生命周期时,我们指的是组件在创建、更新和销毁过程中发生的一系列事件。了解Vue的生命周期对于开发人员来说是至关重要的,因为它们提供了一个机会来执行特定任务,并在不同的阶段处理组件。 Vue的生命周期可以分为八个不同的阶段:创建前、创建后、挂

    2024年02月06日
    浏览(52)
  • 深入理解Web注解:解析常用注解及其应用场景

    Web(World Wide Web)是由英国物理学家蒂姆·伯纳斯-李于1989年发明的一个基于互联网的信息系统,也是互联网最为知名和常用的应用之一。它通过一种名为超文本传输协议(HTTP)的协议来传输数据,并且使用统一资源定位符(URL)来标识网络上的资源。 Web的基本组成部分包括

    2024年02月05日
    浏览(50)
  • 深入理解数据结构:队列的实现及其应用场景

    队列(Queue)是一种具有先进先出(FIFO)特性的数据结构。在队列中,数据的插入和删除操作分别在队列的两端进行。插入操作在队列的尾部进行,而删除操作则在队列的头部进行。这种特性使得队列在很多实际应用中非常有用,比如任务调度、缓冲区管理等。 线性表是一种

    2024年04月28日
    浏览(53)
  • Elasticsearch核心应用场景-日志优化实践

    日志领域是Elasticsearch(ES)最重要也是规模最大的应用场景之一。这得益于 ES 有高性能倒排索引、灵活的 schema、易用的分布式架构,支持高吞吐写入、高性能查询,同时有强大的数据治理生态、端到端的完整解决方案。但原生 ES 在高吞吐写入、低成本存储、高性能查询等方

    2024年02月10日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包