【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路

这篇具有很好参考价值的文章主要介绍了【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2022 CCF BDCI 数字安全公开赛

赛题「Web攻击检测与分类识别

地址:http://go.datafountain.cn/4Zj

@爆汁大橘少糖战队获奖方案

团队简介

团队成员来自海康威视研究院,目前从事大数据算法相关的工作,具有丰富的数据挖掘实践经验。曾获得过2022绿色计算大赛数据中心流量时序预测赛道冠军,2022科大讯飞人岗匹配挑战赛冠军,2021 CCF BDCI系统认证风险预测冠军,2021ATEC科技精英赛科技新星榜冠军,2021招商银行FinTech精英训练营冠军,2020链想家计算科技大赛冠军等奖项,对数据挖掘及人工智能有浓厚的兴趣。

【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路,前端,分类,数据挖掘

摘要

团队基于HTTP协议内容相关的字段来识别Web攻击的种类,构建Web攻击检测模型。我们进行了数据探索,并进行多维度的特征工程构造以表征Web攻击模式特点,基于轻量梯度提升树搭建了Web攻击检测模型,同时调整特征与参数,实现鲁棒、高质量的攻击检测,在最终的排行榜测评中得分为0.9727,位列第一名。

关键词

Web攻击检测、特征工程、TF-IDF、梯度提升树

赛题任务

1.1 赛题背景

某业务平台平均每月捕获到Web攻击数量超过2亿,涉及常见注入攻击,代码执行等类型。传统威胁检测手段通过分析已知攻击特征进行规则匹配,无法检测未知漏洞或攻击手法。如何快速准确地识别未知威胁攻击并且将不同攻击正确分类,对提升Web攻击检测能力至关重要。利用机器学习和深度学习技术对攻击报文进行识别和分类已经成为解决该问题的创新思路,有利于推动AI技术在威胁检测分析场景的研究与应用。

1.2 赛题任务与评价指标

参赛团队需要对前期提供的训练集进行分析,通过特征工程、机器学习和深度学习等方法构建AI模型,实现对每一条样本正确且快速分类,不断提高模型精确率和召回率。待模型优化稳定后,通过无标签测试集评估各参赛团队模型分类效果,以F1-score评估各参赛团队模型质量。

整体评价指标的F1-score公式为如下所示,

【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路,前端,分类,数据挖掘

其中,TP表示为将正样本预测为正的数量,FP表示将负样本预测为正样本的数量,FN表示将负样本预测为负的数量。

数据探索

2.1 数据概览

本次赛题一共提供了id、method、user_agent、url、refer、body和label共计7个字段,其中id为样本编号列,label为攻击类型的编号,其他5个字段为HTTP协议的内容。

本赛题数据集分为训练集与测试集,训练集包含33219条数据,测试集包含4000条数据。两个数据集都包含5个HTTP协议特征,另外测试集不包含label字段。

2.2 缺失值

首先根据特征字段info图查看空值情况,如图2-1和图2-2所示,训练集字段id、method以及label不存在缺失值,字段user_agent缺失2630条数据,字段url缺失1条数据,字段refer缺失24675条数据,缺失率高达74.27%,字段body缺失12348条数据,而测试集具有相似的情况(字段缺失比例相当),字段id、method不存在缺失值,字段user_agent缺失327条数据,字段url缺失2条数据,字段refer缺失2856条数据,缺失率同样超过70%,字段body缺失1731条数据。

【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路,前端,分类,数据挖掘

图2-1 训练集信息

【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路,前端,分类,数据挖掘

图2-2 测试集信息

2.3 探索性分析

本赛题存在样本较不均衡的情况,如下图2-3所示,标签1(SQL注入)具有最多的样本高达14038条,占比高达42.25%,而标签3、4、5具有较小的样本量,其中标签5(XSS跨站脚本)更是只有659条数据,占比仅为1.98%,约为最高占比标签样本的二十分之一。因此后续需要进行相应处理以提升模型的性能。

【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路,前端,分类,数据挖掘

图2-3 标签分布

对HTTP协议特征字段进行长度统计,如下图2-4所示。可以看到method、refer字段长度一般较小,而user_agent和url的长度中位数分别为48和62.5,body的长度一般较长,中位数达到462。使用预训练模型可能需要注意token的长度限制。

【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路,前端,分类,数据挖掘

图2-4 字段长度统计

特征提取

在前述数据探索的基础上,我们进行了多维度的特征提取Web攻击的特征,极大提升模型准确性,主要包括原始特征、常规统计特征、TF-IDF特征以及业务相关特征。

3.1 原始特征

对于数据集的原始特征,method、user_agent、refer属于基数较小的类别变量,我们通过Label Encoder对其直接进行编码,而url、body属于高基数类别特征,我们将这两个特征去除。

3.2 常规统计特征

基于上述数据探索,我们发现该数据集存在较多的缺失,且其缺失程度和标签具有一定的相关性,于是构造了缺失值列和特征。

对于每个类别字段,我们都进行计数统计,来描述每个类别的出现频繁程度。

3.3 TF-IDF特征

HTTP协议内容相关字段也可以被视作一种特殊文本,对其进行TF-IDF统计有助于在不考虑语义信息的情况下提取不同文本中重要的字词,从而对Web攻击进行表征。

TF-IDF【2】的具体公式如下所示:

【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路,前端,分类,数据挖掘

其中,n表示某个词在文档中出现的次数,N表示文档中所有词出现的总和,这是一个归一化的过程,目的是消除文章篇幅长短上的差异。D表示语料中所有文档的总数,d表示语料中出现某个词的文档数量。TF-IDF为两者的乘积。用TF-IDF可以弱化常见词,保留重要的词。

对于TF-IDF生成的高维稀疏向量,我们主要有三种处理方法,第一种是直接将该特征送入树模型,第二种是通过SVD等方法进行降维再作为特征送入树模型,第三种则是通过简单的线性模型对TF-IDF矩阵进行学习,得到预测概率作为特征送入树模型。第一种方案效果与第三种效果相当但具有耗时巨大的特点,第二种方案则存在降维信息损失,效果相对较差,因而我们最终采取第三种方案来进行TF-IDF特征提取。

对于TF-IDF,依然有许多细节要明确,首先我们采取的方式是以char为单位的,通过1-3Gram以及4Gram分别进行特征提取,最终将他们提取的特征进行拼接。其次,我们处理的文本第一种为原始的url、user_agent以及body,第二种为对这些字段进行逆向处理以及数字泛化处理(连续的数字转化为一个零来表示)。最终将两种处理方式以及两种Gram生成的TF-IDF特征进行拼接。

3.4 业务特征

对于特殊词,例如alert、script、onerror、eval等进行正则匹配与统计计数。对于url字段中最后一个字符进行是否为“/”的判断。对于字符的数字字符频率、大写字母频率进行正则提取[3]。

对于SQL注入,做进一步的特征提取。包括and、or、xor、inner join、order等关键词的计数提取,对空格占字段的百分比进行统计,对{、}、=、@、*等特殊符号进行百分比统计,对前缀做&、%等字符的百分比统计。

对于XSS静态特征,做进一步的特征提取。包括java、script、iframe等特殊字符的计数提取。

模型训练

4.1 模型选择

因为赛题的模型限制,我们只采用了具有代表性的梯度提升树模型Lightgbm[1]进行模型搭建。

4.2 数据集划分

为了保证训练集和验证集正负样本比例与原始数据集相同如图4-1所示,我们采样五折分层交叉验证(StratifiedKFold)的方法进行训练集与验证集的划分。

【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路,前端,分类,数据挖掘

图4-1:分层交叉验证示意图

4.3 训练细节

我们发现模型在本地验证时多数类错例极少,而几个多数类存在错误率较高的情况。这是因为样本的不均衡情况的存在,模型过多的关注了多数类样本。

因此我们采用给样本加权的方式来进行模型训练,权值来自于各自类别的线下验证评分,线下验证评分越高采用越低的权重,这在线上评测中取得了较大成绩的提升。模型最后训练采用multi-logloss作为早停的评价指标。

致谢

感谢我的导师俞颖晔俞工,在比赛中给予了我很多建设性的意见,使我能够在赛题中取得更为突出的成绩。

感谢竞赛主办方提供的平台与机会,感谢360信息安全中心提供的宝贵数据集。

参考

[1] Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree, Advances in neural information processing systems. 2017: 3146-3154.

[2] Jones K S. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of documentation, 1972.

[3]月亮与六便士. Web攻击检测机器学习深度实践.

https://www.freebuf.com/articles/web/205760.html文章来源地址https://www.toymoban.com/news/detail-627054.html

到了这里,关于【二等奖方案】Web攻击检测与分类识别赛题「爆汁大橘少糖」团队解题思路的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • OCR文字检测与识别系统:融合文字检测、文字识别和方向分类器的综合解决方案

    前两章主要介绍了DBNet文字检测算法以及CRNN文字识别算法。然而对于我们实际场景中的一张图像,想要单独基于文字检测或者识别模型,是无法同时获取文字位置与文字内容的,因此,我们将文字检测算法以及文字识别算法进行串联,构建了PP-OCR文字检测与识别系统。在实际

    2024年02月10日
    浏览(50)
  • 【三等奖方案】小样本数据分类任务赛题「复兴15号」团队解题思路

    第十届CCF大数据与计算智能大赛(2022 CCF BDCI)已圆满结束。大赛官方竞赛平台DataFountain(简称DF平台)将陆续释出各赛题获奖队伍的方案思路。 本方案为【小样本数据分类任务】赛题的三等奖获奖方案,赛题地址:https://datafountain.cn/competitions/582 团队名称: 复兴15号 团队成员

    2024年02月09日
    浏览(30)
  • 目标检测与图像识别分类的区别?

    目标检测与图像识别分类的区别 目标检测和图像识别分类是计算机视觉领域中两个重要的任务,它们在处理图像数据时有一些区别。 目标检测是指在图像中定位和识别多个目标的过程。 其主要目标是确定图像中每个目标的边界框位置以及对应的类别标签。目标检测任务通常

    2024年02月07日
    浏览(40)
  • 面部表情识别(Pytorch):人脸检测模型+面部表情识别分类模型

    面部表情识别2:Pytorch实现表情识别(含表情识别数据集和训练代码):https://blog.csdn.net/guyuealian/article/details/129505205 b站视频:https://www.bilibili.com/video/BV1xm4y1p7H3 项目源码:https://github.com/Whiffe/PyTorch-Facial-Expression-Recognition 面部表情识别由两部分组成:人脸检测与表情识别分类 人

    2024年02月13日
    浏览(58)
  • python姿态检测实现多人多姿态识别python行为识别openpose行为骨骼框架检测动作识别动作检测行为动作分类

    https://download.csdn.net/download/babyai996/88741189 https://download.csdn.net/download/babyai996/88741257  https://download.csdn.net/download/babyai996/88741262  https://download.csdn.net/download/babyai996/88741266  https://download.csdn.net/download/babyai996/88741272  https://download.csdn.net/download/babyai996/88741274  视频演示: python行为

    2023年04月20日
    浏览(48)
  • 计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)

    教程博客_传送门链接:链接 在本教程中,您将学习如何使用迁移学习训练卷积神经网络以进行图像分类。您可以在 cs231n 上阅读有关迁移学习的更多信息。 本文主要目的是教会你如何自己搭建分类模型,耐心看完,相信会有很大收获。废话不多说,直切主题… 首先们要知道深

    2024年02月07日
    浏览(67)
  • 目标检测YOLO实战应用案例100讲-小麦麦穗的目标检测与杂草分类识别研究

    目录 前言 相关理论知识  彩色图像的空间模型简介  卷积神经网络简介 

    2024年02月16日
    浏览(44)
  • 【OpenCV】车辆识别 目标检测 级联分类器 C++ 案例实现

    前言 一、目标检测技术 二、样本采集工作原理 三、创建自己的级联分类器 Step1:准备好样本图像 Step2:环境配置(OpenCV win10) Step3:设置路径 Step4:实现样本数据采集  Step5:实现样本数据训练 Step6:生成级联分类器文件  四、案例实现 Step1:灰度处理 Step2:二次压缩 Ste

    2024年02月05日
    浏览(40)
  • (终章)[图像识别]13.OpenCV案例 自定义训练集分类器物体检测

    目录 一、准备阶段  二、图片处理 ​三、生成描述文件  四、生成.vec文件   五、生成.xml自定义分类器文件  六、识别检测 正样本集: 正样本集为包含“识别物体”的灰度图,一般大于等于2000张,尺寸不能太大,尺寸太大会导致训练时间过长。 负样本集: 负样本集为不含

    2024年02月06日
    浏览(33)
  • Web系统常见安全漏洞介绍及解决方案-CSRF攻击

    🐳博客主页:拒绝冗余 – 生命不息,折腾不止 🌐订阅专栏:『Web安全』 📰如觉得博主文章写的不错或对你有所帮助的话,还望大家多多支持呀! 👉关注✨、点赞👍、收藏📂、评论。 CSRF跨站请求伪造,全称Cross-site request forgery,是指利用受害者尚未失效的身份认证信息

    2024年01月22日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包