【日志解析】【频率分析】ULP:基于正则表达式和本地频率分析进行日志模板提取

这篇具有很好参考价值的文章主要介绍了【日志解析】【频率分析】ULP:基于正则表达式和本地频率分析进行日志模板提取。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

An Effective Approach for Parsing Large Log Files

1 论文出处

会议:International Conference on Software Maintenance and Evolution(ICSME)

级别:CCF-B

时间:2022

2 背景

2.1 背景介绍

  日志文件包括大量关于软件系统执行的信息,用于帮助处理不同的软件工程活动,生成的日志事件主要由两部分组成:日志头和日志消息。解析日志消息需要自动区分静态文本和动态变量,一种方法是使用正则表达式,而典型的工业日志文件可能包含数百个日志模板,许多方法基于频率分析来实现,比如Drain和Logram,这些工具将频率分析应用于整个日志文件,这使得很难在静态和动态标记之间找到明确的界限。

2.2 针对问题
  • 使用多个日志库会导致正则表达式的不断更新。
  • 依赖于领域知识很难区分日志的动态变量和静态内容。
  • 将频率分析应用于属于同一组的日志事件,而不是针对整个日志数据集。
2.3 创新点
  • 基于字符串匹配和本地频率分析对日志进行解析,不需要先前的领域知识或使用复杂的机器学习技术。
  • 设计通用的正则表达式来进行日志预处理。

3 主要设计思路

3.1 预处理

  通过简单的正则表达式识别出日志的头部信息,包括时间戳、进程ID、日志级别和日志记录功能,以及一些简单的动态变量比如IP地址和MAC地址,并且运行用户自定义正则表达式识别领域变量。

3.2 日志事件分组

  根据两个日志事件所包含的标记数量与最有可能是静态标记的标记数量来衡量两个日志事件的相似性,首先通过空格分割来确定标记个数,之后识别出只包含字母的标记,最后将日志事件转变为一个由字母标记和标记总数组成的字符串来进行匹配。

3.3 通过频率分析生成日志模板

  通过计算每个标记在属于同一组的日志事件中出现的次数,来分析每一组日志事件中出现的标记。

1) PacketResponder 1 for block blk_38865049064139660 terminating
2) PacketResponder 0 for block blk_-6952295868487656571 terminating
3) PacketResponder 2 for block blk_8229193803249955061 terminating
4) PacketResponder 2 for block blk_-6670958622368987959 terminating
5) PacketResponder 2 for block blk_572492839287299681 terminating
【日志解析】【频率分析】ULP:基于正则表达式和本地频率分析进行日志模板提取
1) PacketResponder <*> for block <*> terminating
2) BLOCK* NameSystem.addStoredBlock: blockMap updated: <*> is added to <*> size 67108864
3) Received block <*> of size 67108864 from <*>

4 实验设计

  评估了ULP在解析LogPai基准的10个日志数据集时的准确性和效率,并与目前已有的解析方法对比。文章来源地址https://www.toymoban.com/news/detail-487280.html

4.1 准确性
【日志解析】【频率分析】ULP:基于正则表达式和本地频率分析进行日志模板提取
4.2 效率
【日志解析】【频率分析】ULP:基于正则表达式和本地频率分析进行日志模板提取

到了这里,关于【日志解析】【频率分析】ULP:基于正则表达式和本地频率分析进行日志模板提取的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【编译原理】【词法分析】【正则表达式】【NFA】【DFA】【C++】正则表达式转DFA&NFA,判断字符串是否符合正则表达式的匹配算法

    显然,正则表达式、NFA、DFA的概念都很简单,所以直接上代码,注释应该解释地比较清楚, 没有万能头文件的自行替换需求库 ,如果有疑问的可以留言。 网盘链接 [自行补全]/s/1pbGT_wpB662TwFrnukXgGQ?pwd=TSIT 提取码:TSIT 原理可以参考这篇博客 传送门 本次程序由四个文件组成 文

    2024年02月11日
    浏览(88)
  • 正则表达式 vs. 字符串处理:解析优势与劣势

    1. 正则表达式起源与演变 正则表达式(Regular Expression)最早由美国数学家斯蒂芬·科尔内基(Stephen Kleene)于1956年提出,用于描述字符串的模式匹配规则。随后在计算机领域得到广泛应用,成为文本处理和匹配的重要工具。 正则可视化 | 一个覆盖广泛主题工具的高效在线平台

    2024年03月27日
    浏览(47)
  • 简单明了!网关Gateway路由配置filters实现路径重写及对应正则表达式的解析

    前端需要发送一个这样的请求,但出现404 首先解析请求的变化:  http://www.51xuecheng.cn/api/checkcode/pic 1.请求先打在nginx, www.51xuecheng.cn/api/checkcode/pic 部分匹配到了之后会转发给网关进行处理变成 localhost:63010/checkcode/pic  2.然后再转发到网关上,网关上的路由转发配置如下图。然

    2024年02月06日
    浏览(43)
  • 《Python数据分析技术栈》第03章 01 正则表达式(Regular expressions)

    《Python数据分析技术栈》第03章 01 正则表达式(Regular expressions) A regular expression is a pattern containing both characters (like letters and digits) and metacharacters (like the * and $ symbols). Regular expressions can be used whenever we want to search, replace, or extract data with an identifiable pattern, for example, dates, posta

    2024年01月20日
    浏览(53)
  • linux高并发web服务器开发(web服务器)18_函数解析http请求, 正则表达式,sscanf使用,http中数据特殊字符编码解码

    pdf详情版 编写函数解析http请求 ○ GET /hello.html HTTP/1.1rn ○ 将上述字符串分为三部分解析出来 编写函数根据文件后缀,返回对应的文件类型 sscanf - 读取格式化的字符串中的数据 ○ 使用正则表达式拆分 ○ [^ ]的用法 通过浏览器请求目录数据 ○ 读指定目录内容  opendir 

    2024年02月16日
    浏览(60)
  • 【正则表达式】正则表达式常见匹配模式

    模式 描述 w 匹配字母数字及下划线 W 匹配非字母数字下划线 s 匹配任意空白字符,等价于 [tnrf]. S 匹配任意非空字符 d 匹配任意数字,等价于 [0-9] D 匹配任意非数字 A 匹配字符串开始 Z 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串 z 匹配字符串结

    2024年02月09日
    浏览(81)
  • 【SQL-正则】利用正则表达式进行过滤操作(常用正则表达式)

    1、由数字、26个英文字母或者下划线组成的字符串 2、非负整数(正整数 + 0 ) 3、正整数 4、非正整数(负整数 + 0) 5、负整数 6、整数 7、非负浮点数(正浮点数 + 0) 8、正浮点数 9、非正浮点数(负浮点数 + 0) 10、负浮点数 11、浮点数 12、由26个英文字母组成的字符串 13、

    2024年02月12日
    浏览(81)
  • Python正则表达式之学习正则表达式三步曲

            正则表达式描述了一种字符串匹配的模式,可以用来检查一个串的有无某子串,或者做子串匹配替换,取出子串等操作。也可以说正则表达式就是字符串的匹配规则,也可以理解为是一种模糊匹配,匹配满足正则条件的字符串。         1、数据验证(eg:表单验

    2024年02月15日
    浏览(66)
  • Java 之正则表达式语法及常用正则表达式汇总

    正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为 regex、regexp 或 RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称

    2024年02月09日
    浏览(71)
  • 正则表达式、常用的正则

    正则表达式(Regular Expression,简称为Regex或RegExp)是用于匹配和搜索文本模式的工具。它是一个强大且灵活的字符串处理工具,可以用来检查一个字符串是否符合特定的模式,或者从一个文本中提取满足条件的部分。 在正则表达式中,可以使用不同的元字符和特殊符号来定义

    2024年02月14日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包