Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别

这篇具有很好参考价值的文章主要介绍了Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

论文标题:A novel antibacterial peptide recognition algorithm based on BERT

论文地址:novel antibacterial peptide recognition algorithm based on BERT | Briefings in Bioinformatics | Oxford Academic

代码:https://github.com/BioSequenceAnalysis/Bert-Protein

一、问题提出

抗菌肽是一种小分子多肽,是生物先天免疫系统的关键组成部分。它们的作用方式多种多样,如破坏目标细菌的细胞膜、干扰DNA产生等,对细菌、病毒和真菌具有广谱抗菌活性。

目前,AMPs(Antimicrobial peptides,抗菌肽)的识别方法主要分为湿实验法和计算机辅助识别法。

湿法实验设计复杂,操作困难且耗时。它们需要大量的人力和材料成本

计算机辅助识别方法可分为基于经验分析的方法和基于机器学习的方法。基于经验分析的方法以确定类型的AMP为模板,利用已知的经验规则对肽链性质与抗菌活性之间的关系进行统计分析,然后建立模型。

建模方法主要包括主成分分析(PCA)、偏最小二乘法等。本质上,它是为了识别待测试序列是否具有训练集的某些特定特征。缺点是依赖于训练集现有的语义模式,并且很难迁移到其他类型的AMP,现有研究表明,氨基酸序列本身包含了关于其是否具有抗菌活性的关键信息。

蛋白质序列类似于自然语言,可以自然地表达为一串字母。此外,自然进化的蛋白质通常由重复使用的模块化元件组成,这些元件表现出轻微的变化,可以以分级的方式重新排列和组装

提出了一种新的基于BERT的模型训练算法,以实现对AMP数据集的准确识别。从UniProt中获得蛋白质序列用于预训练,然后使用三种分词方法在六个不同的AMP数据集上对模型进行微调和测试。证明了预训练的作用以及平衡正样本和负样本的作用,并最终使用构建的新数据集训练了一个通用的AMP识别模型

二、Methods

1、Data

Pretraining:UniProt下载556603条蛋白质数据作为预训练样本。

fine-turning:自行构建

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

阳性样本来自APD、抗菌活性和肽结构数据库(DBAASP)、CAMPR3和LAMP,通过直接筛选功能类型、抗菌对象和肽链长度等特征获得。由于没有专门的非抗菌肽(non-AMP)数据库,研究人员通常通过在UniProt中设置一些条件(如非抗菌功能注释、细胞内蛋白质等)来过滤阴性样本。不平衡数据集对训练集的负样本进行随机下采样

2、Representation of the peptides

蛋白质都是由不同比例的氨基酸组成的。用字母表中的20个不同字母来表示20种天然氨基酸。肽链表示为x=[x1,x2,…,xn]T,其中xi是肽链中的第i个氨基酸,n是氨基酸的数目。

每个肽序列都包含标签y。当肽是AMP时,y的值为1;否则为0。

蛋白质序列不同于英文文本和中文文本。英文文本使用空格来区分序列中的每个单词,中文文本可以通过分词算法进行分割。在本文中,每个k个氨基酸作为一个组被视为一个“词”,称为k-mer,并且分别选择k=1、2、3。蛋白质序列从开始到结束是分开的。当序列的末端少于k个氨基酸时,剩余的氨基酸形成一个“单词”

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

3、预训练-微调

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

在UniProt中对未标记的蛋白质序列进行分词和掩蔽处理,并执行两个预训练任务:掩蔽语言模型(MLM)和下一句预测(NSP)

对于特定的下游任务,即AMP识别和预测,我们改变预训练模型的输出层,并使用六个不同的标记数据集对其进行微调。

4、Model training  +  performance evaluation

BERT库的12层Transformer,其隐藏层包含768个单元节点和12个注意力头,参数为110M,TITAN Xp上进行了1000万次训练,学习率为2e−5,batchsize为32。

敏感性(Sn)、特异性(Sp)、准确性(Acc)和马修相关系数(MCC)、AUC-ROC:

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

Sn和Sp分别反映了模型识别AMP和非AMP的能力,Acc体现了模型的整体预测效果。三者的取值范围为[0,1],值越大,模型预测越准确。

MCC通常被视为一种平衡指标,即使样品不平衡。值介于−1和+1,参考选择测试集中样本的真实标签与预测结果之间的相关性。值越高,相关性越大。当该值接近1时,模型的分类性能优异;当接近−1时,模型的预测结果与实际结果相反;当接近0时,模型预测结果与随机预测相似。

三、Results

1、comparsion with baseline

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

最好模型与现有模型的差异:

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

2、预训练有效性

预训练对k值较大的模型有更明显的影响:

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

3、Balanced dataset analysis

对每个训练集的负样本进行随机下采样,以平衡数据集。为了查看模型在不平衡训练集上的表现是否不同,选择了两个数据集:MAMPsPred模型的数据集和iAMP-2L模型的数据集:

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

性能:无论数据集是否平衡,该方法都显示出优异的性能。与平衡集的结果相比,在不平衡集上训练的模型的整体识别性能降低,这特别体现在Acc和MCC指标的下降上。

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

AmPEP模型提供的数据集中有大量的负面数据,这为尝试评估不同的正面:负面(P:N)数据比率对AMP预测的影响提供了基础。根据原始数据集(P/N比为1:51),生成了5组数据,其中P/N比为1:1、1:3、1:5、1:7和1:9。通过10倍交叉验证评估了每个分类器的预测性能。

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

尽管随着训练集中非AMP数量的增加,Sp指数迅速增加,Acc随后被拉高,但Sn和MCC随着数据集变得更加不平衡而减少。

4、A general model

增加训练集的多样性可以在一定程度上提高模型的通用性。(i)使用AntiBP2模型的训练集来微调用UniProt预训练的模型以获得模型A(ii)使用AntiBP2模型的训练集对在上述新的AMP和非AMP数据集上训练的模型进行微调,以获得模型B。以k=1时两种方式训练的模型为例,两种模型都在一定程度上提高了测试精度:

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

用大量AMP训练的模型具有良好的可迁移性,更适合用作新样本识别或预测任务的预训练模型,以同时捕获新数据集特有的特征和AMP序列之间的共同特征。

使用StarPepDB数据库中包含的16990个非冗余AMP序列,加上相同数量的随机选择的非冗余非AMP多肽链作为训练集来训练通用模型。对该模型进行了5倍的交叉验证,结果如表所示。每个评估指标的最佳结果用黑体字表示。

Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别,bert,人工智能,深度学习

在每个测量指标中,k=1的模型是最好的。文章来源地址https://www.toymoban.com/news/detail-702821.html

到了这里,关于Briefings in Bioinformatics2021 | Bert-Protein+:基于Bert的抗菌肽识别的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Autonomous Driving in Adverse Weather Conditions: A Survey - 恶劣天气条件下的自动驾驶:一项调查 (arXiv 2021)

    声明:此翻译仅为个人学习记录 文章信息 标题: Autonomous Driving in Adverse Weather Conditions: A Survey (arXiv 2021) 作者: Yuxiao Zhang, Alexander Carballo, Hanting Yang, Kazuya Takeda 文章链接:https://arxiv.org/pdf/2112.08936.pdf   自动驾驶系统(ADS)为汽车行业开辟了一个新领域,为未来的交通运输提

    2024年02月16日
    浏览(51)
  • 基于BERT对中文邮件内容分类

    本文是《用BERT做中文邮件内容分类》系列的第二篇,该系列项目持续更新中。系列的起源是《使用PaddleNLP识别垃圾邮件》项目,旨在解决企业面临的垃圾邮件问题,通过深度学习方法探索多语言垃圾邮件的内容、标题提取与分类识别。 在本篇文章中,我们使用PaddleNLP的BERT预

    2024年01月22日
    浏览(48)
  • 基于BERT+BiLSTM+CRF做中文分词

            本文是一次基于BERT+BiLSTM+CRF做中文分词的具体流程,方便自己查看,如有错误的地方,还请各位不吝赐教!         事先声明,本节汉语分词任务的介绍都可以百度出来,只是整合搬运了一下! (1)分词的概念         一般分词是NLP(自然语言处理)的第

    2024年01月16日
    浏览(42)
  • [oneAPI] 基于BERT预训练模型的英文文本蕴含任务

    比赛:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel® DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolkitSamples/ 我们在Intel® DevCloud for oneAPI平台上构建了我们的实验环境,充分利用了其完全虚拟化的特性,使我们能够专注于模型的开发和优化,无需烦心底

    2024年02月11日
    浏览(35)
  • [oneAPI] 基于BERT预训练模型的SWAG问答任务

    比赛:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel® DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolkitSamples/ 在Intel® DevCloud for oneAPI平台上,我们搭建了实验环境,充分发挥其完全虚拟化的优势,使我们能够专注于模型开发和优化,无需过多关心底层配

    2024年02月11日
    浏览(35)
  • [oneAPI] 基于BERT预训练模型的SQuAD问答任务

    比赛:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel® DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolkitSamples/ 我们在Intel® DevCloud for oneAPI平台上构建了实验环境,充分发挥其完全虚拟化的优势。更具影响力的是,我们充分发挥了Intel® Optimization for PyTor

    2024年02月11日
    浏览(40)
  • [oneAPI] 基于BERT预训练模型的命名体识别任务

    比赛:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel® DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolkitSamples/ 在本次实验中,我们在Intel® DevCloud for oneAPI上搭建实验,借助完全虚拟化的环境,专注于模型开发与优化,无需关心底层配置。使用Intel® Opti

    2024年02月12日
    浏览(36)
  • Protein carbonyl ELISA kit羰基化蛋白ELISA试剂盒

    蛋白质羰基化是蛋白质氧化损伤的一种,是氧化应激中一种不可逆的化学修饰。蛋白质羰基化会引起蛋白质结构的改变,使其失去原有的生物学功能,最终导致细胞和组织功能紊乱。蛋白质羰基化不仅是氧化损伤的一项重要指标,也参与多种疾病的生理和病理过程,比如衰老

    2024年01月25日
    浏览(40)
  • Microsoft 图像BERT,基于大规模图文数据的跨模态预训练

    视觉语言任务是当今自然语言处理(NLP)和计算机视觉领域的热门话题。大多数现有方法都基于预训练模型,这些模型使用后期融合方法融合下游任务的多模态输入。然而,这种方法通常需要在训练期间进行特定的数据注释,并且对于许多多模态任务来说,满足这一要求仍然

    2024年02月12日
    浏览(40)
  • 【深度学习应用】基于Bert模型的中文语义相似度匹配算法[离线模式]

    配置文件夹 文件获取方法:  访问官网:https://huggingface.co/bert-base-chinese/tree/main 下载以下文件 

    2024年01月16日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包