Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽

这篇具有很好参考价值的文章主要介绍了Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

文章标题:sAMP-PFPDeep: Improving accuracy of short antimicrobial peptides prediction using three different sequence encodings and deep neural networks

代码:https://github.com/WaqarHusain/sAMP-PFPDeep

一、问题

短抗菌肽(sAMPs):红色是α-helices,蓝色为随机coil

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

最著名的生物计算问题之一是在离散模型中描述生物序列,使其关键序列特征不被改变。以载体形式表达生物序列可能导致失去其重要的基于序列的特征。除此之外,各种基于物理化学特征的方法,主要包括氨基酸组成(AAC)、伪氨基酸组成(PseAAC)、归一化氨基酸组成(NAAC)、疏水性、净电荷、等电点、α-螺旋倾向、β-片倾向和转向倾向,已经被提出用于预测amp,这些表征具有很强的预测肽序列性质的能力。

将序列转换为图像时,分别考虑了包含位置、频率和12个理化特征之和信息的三个通道。

二、Materials and methods

预测sAMPs,即具有少于或等于30个氨基酸残基的序列长度的肽。流程:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

1、Training and benchmark dataset

本研究使用了先前数据集【Deep-AmPEP30: improve short antimicrobial peptides prediction with deep learning】。数据集由1529个sAMPs和1529个Non-sAMPs组成,表明数据集是平衡的。

数据样本:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

最终用于训练的数据集包含1529 + 1529 = 3058个样本。数据集已经经过CDHIT处理,去除冗余的阈值为0.8,即排除相似性超过80%的序列。由于已经执行该预处理,因此在本研究中没有重复该步骤,并且数据集被用作训练目的。188个多肽的基准数据集,包括来自同一研究的94个sAMPs和94个非sAMPs。

2、Sequence to image generation

Sequence to square matrix conversion

将序列转换为方阵。首先,在所有序列中填充假氨基酸,即序列长度小于30的X。这有助于使数据集中的所有样本具有均匀的长度。在下一阶段,将这些序列转换为5 × 6矩阵,例如:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

Square matrix to 3-channel image conversion

方阵被转换为3通道图像。为此,对每个通道进行了不同的计算。

第一通道:编码矩阵。每个氨基酸的编码从1到20,X氨基酸被认为是零。

第二通道:各自序列的方阵中的氨基酸被替换为氨基酸频率。例如,如果氨基酸A,即丙氨酸在一个序列中出现3次,则该序列中的每个A都被替换为3。频率矩阵。频率分布:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

第三通道:氨基酸的理化特性。PepData从CRASP程序中收集了属性值,除Solvent_Exposed_Area,而Solvent_Exposed_Area的值取自(http://prowl.rockefeller.edu/aainfo/access.htm)。

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

在将所有三个通道划分为单个图像之前,所有通道都在0-255的范围内归一化。这有助于生成三个实际的均匀通道,并在合并它们后,从每个肽序列生成一个3通道图像。

3、Classification through VGG-16 and RESNET-50

经过20个epoch后,模型收敛。为优化所有参数,使用Grid进行超参数调优。VGG-16和RESNET-50:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

两种神经网络的最小输入层尺寸均为32 × 32 × 3,而本研究生成的图像为5 × 6 × 3。因此,为将这些微小的图像传递给模型,对图像执行零填充。

4、Validation study

为验证,采用基于分子对接(AutoDock Tools和AutoDock Vina)。首先,建立从UniProt中检索长度≤30个残基的AMP的数据集。通过关键字抗菌[KW-0929]进行检索,长度设置为∗TO30,检索到728个已审查的肽序列。随后,为去除检索序列中的冗余,应用CD-HIT,相似度阈值为60%,从原始的728个序列中检索到301条肽序列。

除预测标签外,对于阳性样本,还计算以p值(概率)表示的预测分数,因为这些收集的肽实际上都是阳性的。这些肽被归类为阳性sAMPs,进行三级结构预测,并使用SWISSModel建模。通过与八种已知细菌受体的分子对接,评估这些肽的抗菌潜力。

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

每次对接后计算反应的结合能,并利用这些结合能计算μM中的抑制常数Ki值为:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

其中G为结合能,T为温度,为298.15 K, R为气体常数,为1.9872036 kcal/mol。

在进行分子对接时,使用AutoDock Tools为观察到的每个蛋白质的结合位点生成一个Grid box dimensions(size),并记录。

使用AutoDock Vina进行分子对接,并计算所有对接肽的结合亲和力值,以了解它们与感兴趣的蛋白质的相互作用。

在本研究中,采用E = 4、E = 8、E = 16、E = 32、E = 64和E = 128六种不同穷举启发式的对接仿真方法。然而,在穷举E = 8后,结合方面未见改善,因此,报告E = 8的结果。

为更好地描述,预测分数,即p值与所有肽的结合能(γG)和抑制常数(Ki)相关。

5、Evaluation of performance

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

三、Results and discussion

1、Estimation of training performance

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

VGG-16的训练效果优于ResNet-50:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

基于VGG-16的预测产生了1502个真阳性和1504个真阴性,假阳性和假阴性分别为25个和27个。预测1484个真阳性和1456个真阴性,而假阳性和假阴性分别为73和45。这表明VGG-16的精度与RESNET-50相比有显著差异:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

2、Evaluation of predictors based on independent dataset testing

使用了94个samp和94个非samp的未见数据。VGG16在所有评估指标方面都比RESNET-50表现出更好的结果:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

另一个独立的数据集,Indp2,包括1032个samp和1032个非samp,仅考虑长度在11 ~ 30个残基之间的序列,用于测试模型:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

3、Comparative analysis with state-of-the-art methods

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

4、Validation through molecular docking

为描述sAMP-PFPDeep预测与对接结果的相关性,绘制结合能(γG)与预测评分(p值)的相关图:

Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽,人工智能,神经网络

预测结果与图中趋势线所示的结合能密切相关,除了少数被错误预测为阴性的肽(non-sAMPs)。趋势线的起伏对所有287个肽都是同步的。此外,这些肽与8种细菌受体的结合能较高,表明它们具有较强的抗菌活性候选性,而sAMP- pfpdeep对sAMP的预测也证明了这一点。这表明,通过提出的方法预测为sAMP的肽是对细菌受体表现出强结合能的候选肽。此外,该方法主要用途是,实验生物学家可以在进行分子对接模拟或任何体外实验之前,通过所提出的方法预测肽的类别是sAMPs还是non-sAMPs。文章来源地址https://www.toymoban.com/news/detail-705683.html

到了这里,关于Brief. Bioinformatics2021 | sAMP-PFPDeep+:利用三种不同的序列编码和深度神经网络预测短抗菌肽的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Briefings in Bioinformatics投稿经验分享

    期刊名:  BRIEFINGS IN BIOINFORMATICS 期刊名缩写: BRIEF BIOINFORM 期刊ISSN: 1467-5463 E-ISSN: 1477-4054 2023年影响因子/JCR分区: 9.5/Q1 latex模板:http://static.primary.prod.gcms.the-infra.com/static/site/journals/document/oup-authoring-template.zip?node=7987de40f2eea956bc39 投稿网站:

    2024年02月10日
    浏览(44)
  • OpenCV-Python(35):BRIEF算法

            BRIEF( Binary Robust Independent Elementary Features )是一种用于计算机视觉中特征点描述子的算法。它是一种 二进制描述子 ,通过比较图像上不同位置的像素值来生成特征点的描述子。         BRIEF算法的基本思想是选取一组固定的像素对,并比较这些像素对之间的

    2024年01月23日
    浏览(35)
  • HTML <em> <strong> <dfn> <code> <samp> <kbd><var> <cite> 标签

    以下元素都是短语元素。虽然这些标签定义的文本大多会呈现出特殊的样式,但实际上,这些标签都拥有确切的语义。 我们并不反对使用它们,但是如果您只是为了达到某种视觉效果而使用这些标签的话,我们建议您使用样式表,那么做会达到更加丰富的效果。 em 把文本定

    2024年02月06日
    浏览(29)
  • 三种利用python将html文件转图片的方式

    工作需要将pyecharts的表格组件Table生成的html文件转图片,尝试了三种方式,只有第三种方式成功了 snapshot-phantomjs 是 pyecharts + phantomjs 渲染图片的扩展,支持pngjpeggifpdfsvg等格式 下载安装phantomjs (下载地址:http://phantomjs.org/download.html)注意里面的phantomjs.exe需要放的路径问题

    2024年02月07日
    浏览(21)
  • opencv 进阶16-基于FAST特征和BRIEF描述符的ORB(图像匹配)

    在计算机视觉领域,从图像中提取和匹配特征的能力对于对象识别、图像拼接和相机定位等任务至关重要。实现这一目标的一种流行方法是 ORB(Oriented FAST and Rotated Brief)特征检测器和描述符。ORB 由 Ethan Rublee 等人开发,结合了两种现有技术的优势——FAST(加速分段测试特征

    2024年02月11日
    浏览(37)
  • 【超简单】利用Python去除图片水印,太神奇了叭,你还不会嘛?(附三种方法)

    哈喽!我是栗子,今天忙里偷闲给大家更新一下文啦~ 大家是不是经常遇到一些电子版加了一些水印需要去掉才能用的或是需要加一些水印文字的 呢? 工作的时候,尤其是自媒体工作者,必备水印添加工具以保护知识产权,网上有许多的在线/下 载的水印添加工具,但他们或

    2024年02月06日
    浏览(40)
  • Briefings in bioinformatics2022 | ABCNet:基于分治法的分子ImageToSMILES的DL架构

    论文标题:ABC-Net: a divide-and-conquer based deep learning architecture for SMILES recognition from molecular images 地址:ABC-Net: a divide-and-conquer based deep learning architecture for SMILES recognition from molecular images | Briefings in Bioinformatics | Oxford Academic 代码:https://github.com/zhang-xuan1314/ABC-Net/ 现有的OCSR方法由

    2023年04月09日
    浏览(28)
  • Avalanche TVL 占比上升,NFT市场交易量降温 | Foresight Ventures Weekly Brief

    摘要: Avalanche TVL 占比大幅增长。 Gas Fee 水平持续降低。 本周NFT交易量随着 Looksrare 收益降低而下降,Cryptopunks 表现活跃。 本周行情端出现大幅上涨后,重新下跌,导致TVL对比上周同期出现小幅度下降。本周TVL下降$12.84B,下跌幅度达5.92%,超过BTC和ETH的下跌幅度,依旧表明小

    2024年02月08日
    浏览(44)
  • 【大数据】数据分析和挖掘技术和应用 A Brief Review of Big Data Technologies and Application

    作者:禅与计算机程序设计艺术 在现代信息社会里,数据的爆炸性增长已经给传统行业带来巨大的商机,并促进了人工智能、机器学习、云计算等新兴技术的出现。作为数据驱动的经济领域,数据分析和挖掘技术成为绩效提升和产品优化的关键环节,也是各个公司争相追逐的

    2024年02月07日
    浏览(50)
  • 知识图谱-生物信息学-医学顶刊论文(Briefings in Bioinformatics-2022):基于异构图GCN和GAT的DTI预测

    目录 (2022.4.16)Briefings-DTI-HETA:基于异构图GCN和GAT的DTI预测 摘要 1.引言 2.模型方法 2.1 定义 3.1 异构图上的GCN 3.2 图注意机制 3.3 链接预测 4.实验 4.1 案例分析 论文题目:DTI-HETA: prediction of drug–target interactions based on GCN and GAT on heterogeneous graph 论文期刊:Briefings in Bioinformatics 论文

    2023年04月10日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包