Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用

这篇具有很好参考价值的文章主要介绍了Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

论文标题:Predicting drug–protein interaction using quasi-visual question answering system

论文地址:Predicting drug–protein interaction using quasi-visual question answering system | Nature Machine Intelligence

代码:GitHub - prokia/drugVQA: Predicting Drug Protein Interaction using Quasi-Visual Question Answering System

一、问题

目前DPI(DTI)分为两类:基于物理的方法(分子对接molecular docking:应用物理启发式的预定能量函数评估atom-level评估drug-protein interaction,但是难以评估构象熵和溶剂贡献,精度有限,对结构波动敏感,不能很好处理蛋白质的灵活性);基于机器学习的方法(将配体、蛋白质、蛋白质-配体相互作用统一到同一模型,回归/分类)

药物分子线性表示(SMILES)一般少于100个重原子,结构小。蛋白质通常包含1000+个重原子。而且一维蛋白质预测三维结构是一个难题,因此一维蛋白质结构无法捕捉空间信息。虽然有研究直接输入蛋白质3D结构,但是精度低(随着AlphaFold2的出现,这个问题应该有缓解)。同时高质量的蛋白质结构有限。

蛋白质可以由二维成对距离图替代表示(距离图可以用于生成和比较蛋白质的3D结构)。距离图是通过构成蛋白质的氨基酸之间的成对接触来紧凑地表示蛋白质的三维结构。

利用二维距离图来表示蛋白质,因此DPI任务可以视为视觉问答(VQA),但是有区别:

首先,在许多VQA场景中,图像大小可以调整为固定值,但是成对距离图的每个像素表示一对氨基酸之间的关系,如果对图进行下采样,则会导致信息丢失。

其次,SMILES的语法与自然语言不同,这使用自定义的tokenizer过程和合适的模型来获取分子线性符号的语义特征。

第三,训练集仍然比其他应用程序小得多,这需要仔细设计网络

二、模型

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

DrugVQA模型由两个主要部分:具有顺序注意的动态CNN(“Dynamic attentive CNN”)和具有多头自注意的BiLSTM(“Self-attentive BiLSTM”)。

1、Problem formulation

药物分子SMILES tokenizer:

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

蛋白质可以简单地描述为一个由氨基酸残基列表P =(r1,…,rl)组成的线性序列,其中ri为i位氨基酸类型长度为20的one-hot向量,l为序列长度。2D pairwise distance map:

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

其中d(ri, rj)为残基i和残基j的Cα原子之间的距离,d0设为3.8Å,为相邻Cα原子之间的距离。因此距离矩阵为:

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

2、Dynamic attentive CNN

自适应CNN将蛋白质距离图编码为固定大小的向量表示。CNN模块residual blocks(from Resnet30,5×5卷积层+3×3卷积层,ELU代替ReLU) +  sequential self-attention block。通常图像相同大小,但是蛋白质具有不同长度的氨基酸,并且无法缩放。

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

因动态神经网络,1)处理可变长度的输入,(2)预测每个氨基酸的重要性。首先删除残差块间的池化层,并对输入的两侧使用零填充,以确保残差块的结果与输入的大小相同。具体地说,给定一个蛋白质距离图P,最后一个残差块的输出仍然是l×l×N的维数,其中N是最后一个卷积层的通道数。然后使用平均池化对剩余块的信息输出进行压缩

3、Sequential attention

经过CNN特征提取得到的是:Pc,可以看作是蛋白质的序列表示,其中l是蛋白质中氨基酸(位点)的数量,Nf表示每个位点的空间特征:

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

由于大多数位点与药物结合没有直接关系,因此识别一小部分结合位点至关重要。为处理来自卷积层的不同大小的特征映射,并强调重要的结合位点,采用顺序自关注机制来充分利用这些特征进行分类。注意机制以Pc为输入,输出一个权重向量ap(蛋白质的注意矩阵),全连接层:

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

由于蛋白质结合口袋是由空间上相邻的多个连续位点组成的,进一步将wp2扩展为rp-by-dp矩阵,称为Wp2,以捕获结合口袋的整体结构信息,因此多头注意力:

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

式(5)可以看作是一个无偏置的双层MLP。通过将标注矩阵Ap与特征映射Pc相乘来计算rp加权和(注意力):

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

其中Pa是注意力特征图。Pa的大小为rp-by-nf,其中rp是一个可调的超参数,表示注意向量的数量。

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

4、Self-attentive BiLSTM

双向LSTM:

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

相互作用之间的关系:注意机制以整个LSTM隐藏状态H作为输入,输出一个权重向量Am(分子的注意矩阵)为(就是可学的线性注意力,而不是transformer中的注意力):

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

代码:

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

5、Classifier

Normalization(Pa+Ma)后 + 全连接层:

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

损失为交叉熵函数:

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

三、实验Experiments

1、Datasets

the directory of useful decoys, DUD-E, the human dataset and BindingDB

DUD-E:最终的数据集包含22,645个正例和1,407,145个负例。三折交叉验证。为了快速训练模型,使用一个平衡集(每个目标都是正的,随机选择等效的负的)进行训练,但使用整个集(不平衡的)进行评估。DUD-E: A Database of Useful (Docking) Decoys — Enhanced

Human:使用了一个平衡的数据集,其中阳性和阴性样本的比例为1:1。人类数据集包含5423种相互作用和1803种独特的蛋白质。使用80%/10%/10%训练/验证/测试随机分割。https://github.com/masashitsubaki/CPI_prediction/tree/master/dataset

BindingDB:包含来自BindingDB的39747个正例和31218个负例。训练集(50,155个交互),验证集(5607个交互)和测试集(5508个交互)。https://github.com/IBMInterpretableDTIP

2、Evaluation metrics

AUC-ROC。

对于Human,报告精度和召回值。

对于DUD-E,报告ROC富集度量(RE)。具体来说,RE评分被定义为在给定FPR阈值下的真阳性率与假阳性率(FPR)之比。在这里,报告了0.5%、1%、2%和5% FPR阈值下的RE得分。

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

3、消融实验

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

4、Comparisons on the human dataset

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

5、Comparisons on the BindingDB dataset

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

6、Comparisons on the DUD-E dataset.

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

7、Attention visualization.

Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用,DTI(DPI),每日读论文,深度学习,机器学习

对于蛋白Hsp90(图3a),注意条突出显示了Asn51A、Asp93A和Met98A残基,它们与PDB: 3EKR中观察到的关键口袋残基高度重叠。对于蛋白CDK2(图3b),重要性图中突出显示的残基(Phe80A, Asp145A, Leu134A)和配体官能团与2DUV中观察到的相互作用高度相似。文章来源地址https://www.toymoban.com/news/detail-681496.html

到了这里,关于Nat. Mach. Intell 2020 | drugVQA+:准VAQ系统预测药物-蛋白质相互作用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • PSP - 开源可训练的蛋白质结构预测框架 OpenFold 的环境配置

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/132334671 Paper: OpenFold: Retraining AlphaFold2 yields new insights into its learning mechanisms and capacity for generalization OpenFold: 重新训练 AlphaFold2 揭示对于学习机制和泛化能力的新见解 OpenFold 是可训练的开源实

    2024年02月12日
    浏览(29)
  • PSP - 基于开源框架 OpenFold Multimer 蛋白质复合物的结构预测与BugFix

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/132410296 AlphaFold2-Multimer 是一个基于 AlphaFold2 的神经网络模型,可以预测多链蛋白复合物的结构。该模型在训练和推理时都可以处理多链输入,并且考虑了链之间的对称性和遗传信息。 对于

    2024年02月11日
    浏览(28)
  • PSP - 蛋白质与核酸(RNA\DNA)复合物结构预测 RoseTTAFoldNA 算法框架

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/134208615 Paper: Accurate prediction of nucleic acid and protein-nucleic acid complexes using RoseTTAFoldNA GitHub: RoseTTAFold2NA 蛋白质-核酸复合物 (Protein - Nucleic Acid Complexes),在生物学中发挥着关键作用。 尽管蛋白质

    2024年02月22日
    浏览(28)
  • 利用深度蛋白质序列嵌入方法通过 Siamese neural network 对 virus-host PPIs 进行精准预测【Patterns,2022】

    病毒感染可以导致多种组织特异性损伤,所以 virus-host PPIs 的预测有助于新的治疗方法的研究; 目前已有的一些 virus-host PPIs 鉴定或预测方法效果有限(传统实验方法费时费力、计算方法要么基于蛋白结构或基因,要么基于手动特征工程的机器学习); DL在PPIs预测中的应用愈

    2024年02月11日
    浏览(34)
  • 分布式系统概念和设计——Mach实例研究

    Mach实例研究 Mach主要抽象概述 任务 一个Mach任务是一个执行环境 主要包括一个被保护的地址空间和一个内存管理的权能集合 这些权能主要用于访问端口 线程 任务可以包含多个线程 在共享内存的多处理器中,属于同一个任务的线程可以在不同的处理器上并行执行 端口 在Ma

    2024年02月09日
    浏览(32)
  • 基于微信小程序的药物销售系统的设计与实现

    摘要 药物市场的迅速发展让药物网络应运而生,本系统以小程序的特点结合中国当代青年药物文化发展趋势设计与实现一款购买药物小程序。项目主要使用MINA框架和SSM框架搭建实现系统的小程序前端和后台,其中小程序客户端使用了自带的MINA框架,后台管理端采用了SSM框架

    2024年04月26日
    浏览(24)
  • LLM - 搭建 DrugGPT 结合药物化学分子知识的 ChatGPT 系统

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131384199 论文:DrugChat: Towards Enabling ChatGPT-Like Capabilities on Drug Molecule Graphs DrugChat,基于图神经网络和大型语言模型的原型系统,能够实现类似ChatGPT的功能,对药物分子图进行交互式问

    2024年02月11日
    浏览(31)
  • MACH架构的质量工程指南

    MACH是快速创建高质量应用的最佳实践,同时也意味着有助于团队内的质量工程。本文介绍了MACH在质量工程领域所起的作用,并介绍了成功的MACH架构必备的8个要素。原文: MACH Architecture: The Quality Engineering Guide MACH和质量工程有关。 在过去几年里,关于微服务的定义、粒度和最

    2024年02月07日
    浏览(26)
  • 蛋白质深度学习

    本文主要面向两类目标读者: 一类是想使用机器学习的生物学家,一类是想进入生物学领域的机器学习研究者。如果你不熟悉生物学或机器学习,仍然欢迎你阅读本文,但有时你可能会觉得有点读不太懂!如果你已经熟悉这两者,那么你可能根本不需要本文 —— 你可以直接跳

    2024年02月03日
    浏览(30)
  • ESM蛋白质语言模型系列

    第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b 第二篇《MSA Transformer》在ESM-1b的基础上作出改进,将模型的输入从单一蛋白质序列改为MSA矩阵,并在Transformer中加入行、列两种轴向注意力机制,对位点分别计算第个序列和第个

    2024年02月07日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包