PocketMiner:基于深度学习发现蛋白的隐式口袋

这篇具有很好参考价值的文章主要介绍了PocketMiner:基于深度学习发现蛋白的隐式口袋。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


1. 文章简介

标题:Predicting locations of cryptic pockets from single protein structures using the PocketMiner graph neural network
期刊: Nature communictions
团队:华盛顿大学生物化学与分子生物物理系
DOI:https://doi.org/10.1038/s41467-023-36699-3
PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python

2. 前言

靶点的成药口袋是药物研发的起点,而除了在自然状态下显而易见的”显式口袋“外。还存在一类由于蛋白结构的动态变化而形成的"隐式口袋"。靶向隐式口袋提供了新的药物研发可能,比如说:

  1. 目前因在基本态结构中缺乏口袋而被认为”不可成药“的蛋白,可能经由隐式口袋进行靶向。
  2. 靶向隐式口袋的分子同样能够通过抑制或者激活调控蛋白的功能
  3. 显式位点的口袋往往高度保守,并出现在多类蛋白中。因此相较于靶向显示口袋的分子,靶向隐式口袋的分子具有更高的特异性。
    PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python

虽然隐式口袋是诱人的的药物靶标,但定位和靶向他们仍然非常具有挑战性,大多数已知的隐式口袋的发现都是通过筛选或者优化命中化合物的时候偶然发现。此外,动力学模拟通过计算模拟了蛋白质在溶液中动态结构变化,并提供了蛋白结构的集合,这些结构中所揭露隐式口袋可以作为药物设计的模版。但动力学模拟所需要的计算资源较高,使得其难与用于大规模的隐式口袋筛选。

因此本篇文章提出训练了一个图模型PocketMiner用于预测蛋白中哪一块区域有可能在分子动力学模拟过程中打开,从而形成隐式口袋。


3. 方法

3.1 模型框架

PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python
模型框架采用的是GVP-GNN。相较于传统的GNN,其创新点就是加入了如下图所示的GVP模块:
PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python
GVP的输入包含标量s和向量V,首先对向量V做了一个线性变换得到Vh,之后对Vh进行L2正则化并将之与s拼接到一起。从而使得向量信息和标量信息之间形成一个信息交互。

有兴趣的可以去看看原文:https://arxiv.org/abs/2009.01411

4. 结果

4.1 已知隐式口袋在分子动力学模拟分析迅速打开

对16个已知具有隐式口袋的蛋白进行了动力学模拟,首先每个蛋白口袋进行了10次并行40ns模拟,并基于Fast算法对模拟轨迹进行聚类,取所有轨迹的聚类中心作为下一次模拟的起始构像,并再进行10次并行的40ns模拟。上述过程一共循环了5次,基于LIGSITE计算口袋的体积,如果大于或等于结合态的口袋体积即认为口袋已打开,具备了容纳配体的能力。以下是模拟的结果:
PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python

  • A和B图是一个简单的case展示,可以看到相对于apo态,隐式口袋的体积在经过模拟之后明显扩张了。

  • 图C展示的是GluR2蛋白体系在模拟过程中的隐式口袋体积大小分布情况,横坐标是迭代的次数,纵坐标是口袋体积,结果显示在第一次的迭代后,隐式口袋就已打开。

  • D图是多个蛋白体系的C图的集合,橙色的小提琴图代表的是第一次迭代后的口袋体积,而白色则代表的5次迭代后的口袋体积。横坐标代表的与Holo态相比的口袋倍数。即大于等于1就可以认为隐式口袋已打开。可以看到在15个蛋白体系中(有一个蛋白体系中的口袋在apo情况下比holo态还大,舍弃掉了),有13个体系在第一次迭代口袋就已经打开。另外的两个体系中国中AMPA在第五次迭代中口袋打开了,只有Niemann-PickC2
    Protein体系的口袋一直没打开。

总而言之,对于大多数较小的蛋白质,只要有短暂的模拟就可能足以发现隐蔽的口袋。
这一发现表明,识别APO态上隐式口袋的任务可以简化为训练一个模型去预测在短暂的分子动力学模拟时间窗口内(如40ns),口袋能否能够形成。

4.2 图神经网络模型能够准确预测模拟中口袋的动态变化

模型的训练数据集一共包含37个蛋白。其中16个蛋白是来自上一节种所整理的数据;其余蛋白来自课题组之前关于隐式口袋的动力学模拟数据,包括15个SARS相关蛋白和6个Ebolavirus VP35蛋白。和上一节一样,这些动力学模拟的数据全部由40ns的片段组合而成,一共2400个40ns的片段。从中提取了每个片段的初始构象,共941550个氨基酸标注数据用于模型的训练。
PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python
图A展示的是数据标注的方式。训练的标签为氨基酸是否能够在接下来40ns的动力学模拟任意时刻中参与形成隐式口袋的2进制标签。判断的标准基于ligsite计算每个氨基酸周围5A的网格点参与组成的口袋相对于apo状态的体积变化大于或等于40 A 3 A^3 A3d。

图B和图C展示的是,模型训练采用的五折交叉验证(基于37个蛋白而非MD轨迹)中的最优模型的PR曲线和AUC曲线。可以看到GVP-GNN模型要强于3D-CNN模型,且AUC达到了0.83。这些结果说明,当给定蛋白质的天然折叠状态结构时,无需计算中间状体(例如,使用MD模拟)也可以识别分子动力学模拟中隐式口袋形成的位点

4.3 隐式口袋数据集数据集揭示了新的隐式口袋形成的模式

从PDB数据库和已公布的数据集中提取了38个apo-holo蛋白结构对,包含39个隐式口袋。通过检视这些蛋白结构对,作者发现许多隐式口袋的形成是通过closing motion形成的,而非openning motion。closing motion的蛋白结构在apo态下相隔甚远,因此在apo态下几乎没有口袋,而在holo态下蛋白结构聚拢而成壁(wall)或盖子(lid),从而形成了一个可以供配体结合的空腔 (图D)。作者将这样的口袋命名为“reverse”口袋, 大多数的隐式口袋都由单一的motion形成。而在forward和reverse的口袋中,总共观察到了4种常见的结构重排,如下图所示:
PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python
图A,loops可以移开为进入的配体创造空间,或夹紧在配体上方形成壁(wall)或盖子(lid)
图B,二级结构可以发生偏移或者旋转
图C,二级结构和loops之间可以发生相互转换
图D,interdomain可以创造一个可供配体结合的空腔

4.4 PocketMiner能够从无配体的蛋白结构中精准预测预测口袋

鉴于GVP-GNN能够准确预测模拟中的结合口袋位置,作者接下来进一步研究了这种网络架构是否能够用于预测实验结构中的隐式口袋形成的位置。模型的训练数据就是第二节中的的37个蛋白的apo态,但这次除了ligsite的数据方法,还引入了fpocket的口袋成药性打分。最终的模型经由ligsite标注的数据训练了20个epoch,由经fpockt的标注的数据refine了一个epoch。

模型的测试集由三部分组成,首先是第三节中所获取的正集,以及中这样的高度刚性的蛋白(如下图1B),还有已经经过了大量实验的蛋白。作者认为如果一个蛋白已经有了大量的Holo态,那当这些Holo态聚合到一起时,没有ligand结合的区域就可以认为是无法形成隐式口袋的,可作为训练的负集使用(如下图2)。测试集之后又经历了两次过滤:

  1. 负集全部经由MD检验在40ns能不会参与形成口袋
  2. 所有测试集蛋白序列都与训练集中的蛋白序列做了序列比对,删除了一致性大于百分之55的蛋白结构。

最终测试集一共包含35个蛋白:23个能形成隐式口袋的正集,4个超刚性蛋白,以及7个经过了大量实验筛选的蛋白。总计563个正集氨基酸和1283个负集氨基酸。下图1是模型的性能情况:
residues that do not form cryptic pockets in our test set.
图1:
PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python
A:PocketMiner图形神经网络准确地检测了隐藏口袋形成的高的可能性区域(红色),其中就包括ligand的结合区域。该区域有一个loop在Holo态下打开了,形成了一个隐藏口袋。
B:高刚性蛋白结构的展示
C和D:模型性能的展示,可以看到相对于以前的监督学习方法,PocketMiner的AUC稍有提升。但PR曲线在高回收率(0.6~0.8)下预测的假阳性更少,这说明模型的预测错误率是相对下降了的。特别是针对超刚性蛋白,PocketMinder相对于CryotoSite有一个整体的提升。下表为来给那个算法的准确率:
PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python

PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python

图2
PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python
将所有的holo态结合到一起,如果周围5A内不含ligand。则认定该氨基酸无法形成隐式口袋(灰色),反之标红。

4.5 PocketMiner预测了人类蛋白组中的数千个隐式口袋。

之后作者利用上述模型去预测了超过10000个人体基因组蛋白进行了预测,将预测结果分为了三类:Groud state pocket,Criptic pocket 和No cryptic pocket。 分别对应着同时包含显示口袋或隐式口袋的蛋白,仅包含隐式口袋的蛋白以及未找到相关口袋的蛋白(图A), 可以看到有近百分之三十的蛋白仅仅包含隐式口袋,这说明即使在一个蛋白在自然状态下没有显示出明显的小分子口袋下,对其进行进行药物筛选依旧是有意义的。为了证明这一观点,作者将PocketMiner应用到了癌症相关通路Jak/Stat的几个蛋白上,包括下图中所示的PIM2,PIM2已经有经过drug筛选的正构口袋。
PocketMiner:基于深度学习发现蛋白的隐式口袋,深度学习,蛋白口袋,python
图A: 人体基因组蛋白的口袋类型比例,Groud state pocket,Criptic pocket 和No cryptic pocket。 分别对应着同时包含显示口袋或隐式口袋的蛋白,仅包含隐式口袋的蛋白以及未找到相关口袋的蛋白
图B: Jak/Stat 信号通路
图C:PIM 2 激酶的Holo态结构
图D:PocketMiner预测的隐式口袋分布
图E:PIM 2的MD结果,显示在PocketMiner预测的隐式口袋处确实出现了相应的口袋


总结

1. Pocket Miner能够基于Apo态的蛋白结构去精准预测其中的隐式口袋位置(AUC: 0.87), 并且实现了相对于传统监督学习方法CryptoSite实现了1个数量级的速度提升(>1000)
2. 基于MD能够有效发现已知的隐式口袋,并且并不需要长时间的模拟,400ns的模拟即可。
3. 在人体基因组蛋白的PocketMiner预测中发现了大量的仅含隐式口袋的蛋白,说明目前的药物发现的靶标范围是能进一步扩充的。
文章来源地址https://www.toymoban.com/news/detail-685227.html

到了这里,关于PocketMiner:基于深度学习发现蛋白的隐式口袋的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MySQL 的隐式转换导致诡异现象的案例一则

    正是因为 MySQL 对字符串进行隐式转换时会截断再转,而不是像 Oracle、SQL Server 这些数据库针对这种问题直接报错,所以才出现了这个诡异的问题。 作者:刘晨 网名 bisal ,具有十年以上的应用运维工作经验,目前主要从事数据库应用研发能力提升和技术管理相关的工作,Or

    2024年02月10日
    浏览(47)
  • 【C语言】你不知道的隐式类型转换规则

    🎈个人主页:库库的里昂 🎐CSDN新晋作者 🎉欢迎 👍点赞✍评论⭐收藏 ✨系列专栏C语言初阶、代码小游戏 🤝希望作者的文章能对你有所帮助,有不足的地方请在评论区留言指正,大家一起学习交流!🤗 【前言】 本文接着C语言中的操作符(万字详解)讲解隐式类型转换规

    2024年02月14日
    浏览(44)
  • 蛋白质深度学习

    本文主要面向两类目标读者: 一类是想使用机器学习的生物学家,一类是想进入生物学领域的机器学习研究者。如果你不熟悉生物学或机器学习,仍然欢迎你阅读本文,但有时你可能会觉得有点读不太懂!如果你已经熟悉这两者,那么你可能根本不需要本文 —— 你可以直接跳

    2024年02月03日
    浏览(43)
  • AI:150-基于深度学习的医学数据挖掘与病症关联发现

    🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带关键代码,详细讲解供大家学习,

    2024年03月22日
    浏览(54)
  • 【NM 2019】综述:基于机器学习引导的定向进化蛋白质工程

    Machine-learning-guided directed evolution for protein engineering | Nature Methods Machine-learning-guided directed evolution for protein engineering 机器学习引导的定向进化蛋白质工程  图1 | 带和不带机器学习的定向进化。 a)定向进化利用迭代循环的多样性生成和筛选来找到改进的变体。未改进的变体的信

    2024年02月11日
    浏览(42)
  • AI 对抗超级细菌:麦克马斯特大学利用深度学习发现新型抗生素 abaucin

    内容一览: 鲍曼不动杆菌是一种常见的医院获得性革兰氏阴性病原体,通常表现出多重耐药性。利用传统方法,发现抑制此菌的新型抗生素很困难。但利用机器学习可以快速探索化学空间,从而增加发现新型抗菌分子的可能性。近期,国际期刊《Nature Chemical Biology》上发布了

    2024年02月12日
    浏览(52)
  • 【信号去噪和分类】基于小波的隐马尔可夫模型统计信号处理(Matlab代码实现)

    💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 📚2 运行结果 🎉3 参考文献 🌈4 Matlab代码、数据、文献

    2024年02月16日
    浏览(61)
  • 利用深度蛋白质序列嵌入方法通过 Siamese neural network 对 virus-host PPIs 进行精准预测【Patterns,2022】

    病毒感染可以导致多种组织特异性损伤,所以 virus-host PPIs 的预测有助于新的治疗方法的研究; 目前已有的一些 virus-host PPIs 鉴定或预测方法效果有限(传统实验方法费时费力、计算方法要么基于蛋白结构或基因,要么基于手动特征工程的机器学习); DL在PPIs预测中的应用愈

    2024年02月11日
    浏览(51)
  • 机器学习笔记 - 基于Python发现最佳计算机视觉模型的神经架构搜索技术NAS

            近年来,随着深度学习技术的兴起,计算机视觉领域取得了巨大进步。事实证明,卷积神经网络 (CNN) 在图像识别任务中异常强大,但针对特定问题设计最佳架构仍然是一项具有挑战性的任务。这就是神经架构搜索(NAS)发挥作用的地方。NAS 是一种尖端技术,可以

    2024年02月14日
    浏览(46)
  • PSP - 基于开源框架 OpenFold Multimer 蛋白质复合物的结构预测与BugFix

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/132410296 AlphaFold2-Multimer 是一个基于 AlphaFold2 的神经网络模型,可以预测多链蛋白复合物的结构。该模型在训练和推理时都可以处理多链输入,并且考虑了链之间的对称性和遗传信息。 对于

    2024年02月11日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包