【模型压缩】 LPPN论文阅读笔记

这篇具有很好参考价值的文章主要介绍了【模型压缩】 LPPN论文阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

LPPN论文阅读笔记

LPPN: A Lightweight Network for Fast Phase Picking

背景

 深度学习模型的问题在于计算复杂度较高,在实际数据处理中需要面临较高的处理代价,且需要专用的加速处理设备,如GPU。随着数据累积,迫切需要设计一种能够保证精度的轻量化高速震相拾取模型,以提高处理海量数据的效率,这种模型同时可以方便地部署在设备端。

  • 具有更少的训练参数和轻量级网络在处理大规模数据集所需要
  • 轻量级网络保证CPU上的运行效率
  • 轻量级网络也减少训练所需要的标记数量
  • 嵌入式系统总是需要比较小的内存需求模型,轻量级网路的模型尺寸比较小,适合嵌入到现场进行地震信号处理
  • LPPN使用深度可分离卷积的优化减少模型参数 提高性能
  • 渴求轻量级网络和传统方法相当的拾取精度以及比较高的速度实现

LPPN首先对一小部分的波形的相位类型进行分类,然后使用回归输出所需要相位的准确起始时间。该结构使用深度卷积的优化减少了模型参数并且提高性能

模型设计

  • 相位选择包括两个任务:相位确定和起始时间选择
  • LPPN完成两个工作:确定时间序列小区间的相位类型和选择期望相位的时间,分别对应分类问题和回归问题
  • 深度神经网络根据从标记波形中学习到的特征来选择相位。特征数量和感受野是影响网络性能的两个重要因素。
  • 虽然更多的特征可以更好地描述波形,但是也会导致更高的计算成本,适当数量有助于不降低性能的情况下提高效率
  • 对于地震图,可以将感受野视为提取特征的时间窗口长度。接受野是CNN针对输入控件特定特征所关注的区域
  • 对于相位选择,来自更广泛的感受野的特征可以提高对P/S或噪声的分类可靠性

模型架构

  • 大多数相位拾取网络将输出每一个输入数据点的概率,那么LPPN的思路是输出连续的几个点的相位类型概率,降低计算成本

  • 首先确定是否存在所需的相位,然后选择相位时间

  • 如果输入的地震图长度是T个点,LPPN的总下采样率是S,那么有T/S概率输出 S是步长,每一个输出都是原始波形的一个小片段的概率,然后确定它所属的类型。第I个输出代表从Is到is + S - 1的S个采样点的概率,is是数据采样点的索引,对应于时间ti。那么准确的相位到达可能不精确的从ti开始。

  • 分类和回归都是基于从连续T点提取的特征,但是输出将减少到由步幅控制的T/S

  • 100HZ 30.71S 采样点是3072,那么采取大约30s的窗口来确保用于特征提取的足够长度。

【模型压缩】 LPPN论文阅读笔记,# 论文,人工智能,论文阅读,笔记

  • 分类的损失使用交叉熵损失函数
  • 回归的损失函数使用均方差损失

LPPN的网络优化

  • LPPN设计用于在各种设备上运行,在训练时可以配置特征数量和步长,网络内部也进行优化
  • n代表模型的特征数目
  • 特征提取是通过七个CNN块进行的,每一个块执行两个任务:使用前一个块的特征并执行下采样来减少输出的长度,同时它扩展了特征的数量来恢复长度,将足够信息传递给下一个层。
  • 每一个块包括两个点卷积层和一个深度卷积层,形成一个卷积单元来取代传统的CNN卷积层,这样的优化将参数数量减少45%
  • 特征提取的输出被进一步输入到扩大感受野模块中,该模块使用三个下采样层和三个上采样层组成

LPPN的训练与性能评估

  • 对比PhaseNet数据集

  • 使用STEAD数据集

  • 评价指标

    • 预测和标记到达时间之间的时间残差的精度 召回率 平均值 标准差
  • one-hot向量:p [0,1,0] s[0,0,1] 噪声[1,0,0]

【模型压缩】 LPPN论文阅读笔记,# 论文,人工智能,论文阅读,笔记

  • 真正的P到时位于该段内部,表明相位分类是正确的

  • 时间窗口是0.16s 说明窗口有16个点,

  • 分段的初始时间t在真正的P时间拾取之前,在加上回归模块提供的&t之后,预测的P时间更加接近真实的P时间

  • LPPN 可以使用不同的步长来节省内存占用并且加快相位拾取,但是较大的步长也会演唱回归的时间窗口,可能会导致比较低的精度

  • 测试发现,步长为16的中等模型可以在模型性能和计算成本方面提供平衡的配置

  • 对于所有模型,精度和召回率都随着信噪比的增加而增加,并且对于高信噪比,差异较小。对于低信噪比的波形,所有模型都表现出比较差的性能,但是参数比较多、步幅比较小的模型通常比其他模型更好,表明LPPN模型更适合处理期望比较低的SNR波形数据

讨论

  • LPPN是从目标检测模型修改来处理地震波形的。LPPN只输出S个连续点的一个概率来预测相位类型,而不是每个输入点的输出概率。
  • 可训练参数的数量表示模型的大小,内存需要存储这些参数,那么较大的步幅将减少内存需求
  • 当模型被训练并且应用于真实的数据集之后,模型的性能会下降,可以通过添加一些局部样本,通过迁移学习提高性能

STanford EArthquake Dataset (STEAD): A Global Data Set of Seismic Signals for AI

斯坦福地震数据集文章来源地址https://www.toymoban.com/news/detail-602081.html

  • 局部地震波形(350km地震内)
  • 没有地震信号的地震噪声波形
  • 地震通常由配备一个垂直和两个正交水平传感器的三分量一起记录
  • 第一个到达的脉冲是P波
  • 地震并不是产生地震波的唯一来源。
  • 尽管有数百TB的存档地震波形数据和数千万个人类拾取参数可用,但还没有存在用于地震波形的大型高质量标记基准数据集
  • 每个模型都使用不同的数据集进行训练和演示其性能。在没有标准基准的情况下,作者设置了自己的评估性能标准。这抑制了进展,因为它很难确定每种方法的相对性能以及优缺点

到了这里,关于【模型压缩】 LPPN论文阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能学习笔记六——CBOW模型

    连续词袋模型(CBOW)模型是word2vec下的一个模型,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。 网络 以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,

    2024年02月14日
    浏览(39)
  • 人工智能_CPU安装运行ChatGLM大模型_安装清华开源人工智能AI大模型ChatGlm-6B_004---人工智能工作笔记0099

    上一节003节我们安装到最后,本来大模型都可以回答问题了,结果, 5分钟后给出提示,需要GPU,我去..继续看官网,如何配置CPU运行  没办法继续看: 这里是官网可以看到  需要gcc的版本是11.3.0,这里我们先没有去安装,直接试试再说 yum install epel-release yum install gcc-11.3.0 安装的话执行这

    2024年02月21日
    浏览(64)
  • 《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-论文_企业

    进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质。人工智能(AI)能够处理分析海量医疗健康数据,通过认知分析获取洞察,服务于政府、健康医疗机构

    2023年04月09日
    浏览(57)
  • 【论文阅读笔记】Mamba模型代码理解

    官方实现:state-spaces/mamba (github.com) 最简化实现:johnma2006/mamba-minimal: Simple, minimal implementation of the Mamba SSM in one file of PyTorch. (github.com) 直接实现:alxndrTL/mamba.py: A simple and efficient Mamba implementation in PyTorch and MLX. (github.com) 官方代码做了大量优化,目录层级较多,对于理解模型含

    2024年04月13日
    浏览(66)
  • 多模态大模型-CogVLm 论文阅读笔记

    论文地址 :https://arxiv.org/pdf/2311.03079.pdf code地址 : https://github.com/THUDM/CogVLM 时间 : 2023-11 机构 : zhipuai,tsinghua : visual language model 效果:(2023-11) :CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W,

    2024年02月03日
    浏览(50)
  • 中英双语大模型ChatGLM论文阅读笔记

    论文传送门: [1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling [2] Glm-130b: An open bilingual pre-trained model Github链接: THUDM/ChatGLM-6B GLM-130B 和 GPT-3 175B(davinci) 相比,参数量减少,但性能提升了。 INT4 quantization without post training INT4量化是一种将模型的权重和激活从使用

    2024年02月02日
    浏览(43)
  • 带你读论文第十一期:上海人工智能实验室孙伟高博士,分享大模型分布式训练方法!...

     Datawhale论文  来源:WhalePaper,负责人:芙蕖 由Datawhale团队成员发起,对目前学术论文中比较成熟的 Topic 和开源方案进行分享,通过一起阅读、分享论文学习的方式帮助大家更好地“高效+全面+自律”学习,让大家都有所收获和提升!方向包括自然语言处理(NLP)、计算机视

    2024年04月23日
    浏览(48)
  • CLIP原理解读——大模型论文阅读笔记一

    通过自然语言处理来的一些监督信号,可以去训练一个迁移效果很好的视觉模型。 论文的作者团队收集了一个超级大的图像文本配对的数据集,有400 million个图片文本的配对, 模型最大用了ViT-large,提出了CLIP(Contrastive Language-Image Pre-training),是一种从自然语言监督中学习

    2024年02月08日
    浏览(42)
  • 人工智能_普通服务器CPU_安装清华开源人工智能AI大模型ChatGlm-6B_001---人工智能工作笔记0096

    使用centos安装,注意安装之前,保证系统可以联网,然后执行yum update 先去更新一下系统,可以省掉很多麻烦 20240219_150031 这里我们使用centos系统吧,使用习惯了. ChatGlm首先需要一台个人计算机,或者服务器, 要的算力,训练最多,微调次之,推理需要算力最少 其实很多都支持CPU,但为什么

    2024年02月20日
    浏览(58)
  • MiniGPT-4原理解读——大模型论文阅读笔记三

    论文:https://arxiv.org/pdf/2304.10592v1.pdf 代码:https://github.com/vision-cair/minigpt-4 GPT-4展示了非凡的多模态能力,比如直接从手写文本生成网站,以及识别图像中的幽默元素。这些特性在以前的视觉语言模型中很少见。我们认为GPT-4具有先进的多模态生成能力的主要原因在于利用了更

    2024年02月11日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包