目前,现有的方法通常将设备特征枚举为关键字和规则,并将它们与物联网网络数据进行匹配。然而,物联网设备的异构实现引入了复杂的特征,这使得大规模识别变得困难。为了解决这个问题,本文提出了一种基于语义提取的方法来自动有效地识别在线设备的特征。
具体而言,该方法首先从物联网设备的网络数据中分离出应用层数据。然后,结合了基于协同训练理论的多个预测算法来半自动地注释物联网设备的网络数据以训练语义提取器。在注释过程中,研究人员注意到随着注释数据量的增加,精度损失和手动工作量也在增加,因此他们在注释数量、注释精度和手动工作量之间做出了权衡。经过注释过程后,研究人员获得了足够小但足够用于训练的数据集。最后,他们使用该语义提取器来识别物联网设备的特征,并在实验中评估了其性能。
2.技术背景
(1)在线设备发现。在Internet上,设备发现依赖于远程主机的网络数据。研究者向远程主机发送请求,收集其响应数据包,从网络数据包中提取应用层数据并输入到语义提取器中。它是请求和响应之间的常规过程,不需要远程主机的帮助。研究者使用SNMP、FTP、Telnet等多种协议进行全互联网扫描,收集响应数据,并对公众开放数据集。
(2)语义信息提取
语义信息提取是一种自然语言处理技术,用于从文本中识别有意义的词或者句子。实体关系抽取是语义信息抽取的关键组成部分,它揭示了不同实体之间共享的直接关系、连接或事件,以及通过推断的、间接的连接来揭示复杂的关系。基于上下文的语义模式从文本中提取重要词句已被广泛应用于自然语言处理。这种技术可以在没有预定义规则的情况下从文本中识别实体,例如人名、地名和书名等。基于文本的语义模式,设计良好的语义信息提取器可以识别标签超出训练数据集的新实体。它缓解了物联网设备识别中的规则枚举困难,同时,它只要求实体在文本中出现,就可以推断出它们之间的关系。这表明可以根据概率模型推断出缺少的信息,这有助于解决“device3”中缺少供应商信息的问题(见图2)。因此,本文使用基于实体关系提取的方法来提取物联网设备的特征。
二、半自动注释过程:
半自动注释过程是本文提出的一种方法,用于生成IoT设备网络数据的训练数据集。由于缺乏可用的已注释数据集,手动注释需要大量人力成本。因此,本文提出了一种半自动注释算法来减少人力成本,注释过程如图所示。(PPT上 Fig. 3: The overview of annotation.)
半自动注释是一种结合人工标注和机器学习算法的注释方法。本文使用半自动注释来标注IoT设备的网络数据作为语义提取的训练数据集。具体来说,首先手动标注了一部分IoT设备的网络数据,并将其作为训练集输入到聚类算法和协同训练算法中。然后,使用这些算法来对未标注的数据进行自动注释,并将其与手动标注的数据合并起来,形成一个更大更全面的训练集。
半自动注释方法可以大大减少人工标注的工作量,并且可以提高标注的准确性和效率。本文利用协同训练理论的优势,结合多种流行的预测算法对物联网设备的网络数据进行标注。这些算法都是基于协同训练机制的基本思想:取长补短。首先,手动标注一小部分数据,并使用三种无监督聚类算法:K-means、基于密度的带噪声应用空间聚类(DBSCAN)、排序点识别聚类结构(OPTICS)对数据进行聚类。聚类过程是根据聚类距离将标注从标注数据扩展到未标注数据。算法1描述了聚类过程,如图所示(PPT上放: Algorithm 1 The cluster algorithm for annotation.)
然后,基于聚类结果,使用由四种流行的监督算法组成的协同训练分类器:随机森林,Xgboost,支持向量机(SVM),朴素贝叶斯,以生成精确的注释数据集。四种算法中的任意两种在每轮中组合,这样做的原因是为了使每个分类器能够相互学习,通过互相学习,使用优化的分类器来预测未注释的数据集标签。该标注算法在有效生成标注数据的同时,减少了人工标注的工作量。算法2为标注的协同训练算法(PPT上放: Algorithm 2 The co-training algorithm for annotation.)
- 语义提取编码器和特征解码器的设计
在本文中,提出了一种新的语义提取器来识别物联网设备的特征。该语义提取器由一个编码器和一个解码器组成。
(1)语义编码器
语义提取编码器是一种用于从物联网设备的注释数据中提取语义特征的模块。它以注释网络数据作为输入,通过一种新颖的神经网络模型——残差扩张门卷积神经网络(RDGCNN),提取语义特征,并将提取的特征向量输出给解码器中。
(PPT 放Fig. 4:The architecture of encoder)如图所示,这是语义提取编码器的架构。在嵌入阶段,由于神经网络不能直接处理文本数据,因此我们将物联网网络数据中的明文转换为数字向量,以便进行特征学习。将物联网设备数据转换为词向量、字符向量和句子向量,通过RDGCNN对词向量和字符向量进行处理,RDGCNN提取的特征与句子向量连接,输入到特征提取器Bert transformer中,进一步从句子向量中提取语义特征。Bert在自然语言数据上进行预训练,RDGCNN可以帮助Bert微调到物联网网络数据。最后,转换层将提取的语义特征输出到解码器中。
编码器由多个卷积层和池化层组成,可以有效地捕获网络数据中的空间和时间特征,它将输入数据分为多个子序列,并对每个子序列进行卷积和池化操作,以提取其特征。最后,所有子序列的特征被合并为一个全局特征向量。
RDGCNN由残差扩张卷积和残差门控卷积两种卷积组成。在卷积神经网络中,接收域是影响网络特定单元的输入空间区域,接收域的扩展有利于提取通常包含长文本的物联网设备数据的语义信息。扩张卷积(DCNN)是通过增加卷积的接收域来增强卷积神经网络的能力的,随着卷积层深度的增加,梯度消失问题会阻碍学习过程的有效性,导致神经网络的退化。而门卷积缓解了随时间反向传播训练循环连接时出现的梯度消失和爆炸问题,将残差块的结构引入门控卷积以优化其性能。
(2)特征解码器
(PPT 放Fig. 5:The architecture of decoder)如图所示,这是实体关系解码器的架构。实体关系解码器是一种用于对提取的语义特征进行解码来生成物联网设备特征的模块,它以特征向量为输入,分析向量之间的实体关系,并输出物联网设备的特征,通常以三元组(类型、品牌、型号)的形式呈现。
实体关系解码器是一个分层结构,由主题提取层和关系-对象提取层组成。在主题提取层中,主题提取层利用从编码器中提取的特征,根据公式计算文本中潜在主题的可能性,然后输出可能性最大的项目,并从网络数据的文本中提取该词。在关系-对象提取层中,解码器遍历关系(供应商)集,从文本中抽取可能性值最大的对象,计算中使用的对应关系作为最大可能关系,然后结合主题提取层,语义提取器可以生成物联网设备的特征。
解码器由多个全连接层组成,可以将编码器输出的全局特征向量映射到设备标签空间中。具体来说,该解码器使用softmax函数对每个标签进行预测,并输出一个概率分布向量。
- 实验评估:
本文进行了实验评估来验证所提出的方法的有效性。使用两个数据集进行实验评估:一个是从公共数据源中收集的IoT设备数据集,另一个是从真实网络中收集的IoT设备数据集。将方法与其他现有方法进行比较,并使用准确率、召回率和F1值等指标来评估其性能。
对于训练集和测试集,我们将包含210354个条目的数据集按8:2分割。数据集中存在22种不同类型、63家不同供应商和969种不同型号的物联网设备。供应商级别和模型级别的精度如图所示( Fig. 7: The precision of the extractor at vendor level and model
level.)。“Switch”在供应商级别和型号级别的精度最高,分别为97.7%和96.8%,而“Modem”在供应商级别和型号级别的精度都相对较低。模型层的精度与供应商层的精度呈正相关,说明模型生成的大部分误差是由供应商的误差产生引起的。原因是该解码器包含两层:主题提取层和关系-对象提取层。这种体系结构导致对象提取高度依赖于关系预测,即模型生成高度依赖于供应商预测。
为了评估每个特征(例如:词、字符、句子)在语义分析中的有效性,研究者通过单独采用每个特征来训练提取器来进行精度测试。结果见表(TABLE III: Contribution of each features in semantic analysis.)。
比较基于规则的算法、shodan和提出的基于语义提取的方法在类型、供应商、型号和识别时间方面的识别数量。结果见表(TABLE IV: Performance comparison),明显体现了基于语义提取的方法优于另外两种。
最后,研究者利用此方法揭露了3,213,110个易受攻击的物联网设备及其漏洞。
如图(Fig. 10: The vulnerabilities distribution of exposed IoT de-vices)漏洞设备中,缓冲区溢出占25.0%;访问控制不当,占22.8%。其余暴露的漏洞各不到10%。缓冲区溢出是一个严重的漏洞,通常用于在基于linux的设备上获取“root”帐户的全部权限。攻击者一旦获得根权限,就可以任意操纵物联网设备。
实验结果表明,所提出的方法在两个数据集上均取得了优于其他现有方法的结果,并且在不同参数设置下都具有较好的稳定性和鲁棒性。这表明这个方法可以有效地识别IoT设备的特征,并具有广泛应用前景。
五. 结论:
本文的主要贡献在于提出了一种基于语义提取的方法来自动有效地识别在线设备的特征。与现有方法相比,该方法具有以下优点:首先,它可以处理异构实现的物联网设备,因为它不需要枚举所有可能的特征。其次,它可以自动地从网络数据中提取特征,减少了手动工作量。最后,它可以在大规模网络中进行操作,并且具有较高的准确性和可扩展性。
此外,在本文中,研究人员还分析了物联网设备的特征,并发现了超过1500万个设备。这些结果表明该方法是可行和有效的,并且可以用于保护物联网设备免受潜在攻击。
这项研究对于保护物联网设备免受潜在攻击具有重要意义,并为未来相关领域的研究提供了有价值的参考。
六. 小组分工
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数嵌入式工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年嵌入式&物联网开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上嵌入式&物联网开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以+V:Vip1104z获取!!! (备注:嵌入式)
最后
资料整理不易,觉得有帮助的朋友可以帮忙点赞分享支持一下小编~
你的支持,我的动力;祝各位前程似锦,offer不断,步步高升!!!文章来源:https://www.toymoban.com/news/detail-853995.html
bb5de17851459088c6af944156ee24.jpg" alt=“img” style=“zoom: 67%;” />
最后
资料整理不易,觉得有帮助的朋友可以帮忙点赞分享支持一下小编~
你的支持,我的动力;祝各位前程似锦,offer不断,步步高升!!!
更多资料点击此处获qu!!文章来源地址https://www.toymoban.com/news/detail-853995.html
到了这里,关于【无标题】论文阅读1-Characterizing Heterogeneous Internet-of-Things Devices at Internet Scale using Semantic的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!